Ako nájsť percento hodnôt „Nan“ v súbore údajov?

Jul 21, 2025

Zanechajte správu

Lily Zhao
Lily Zhao
Som marketingovým špecialistom spoločnosti Good Mind Electronics, kde vyvíjam stratégie na propagáciu našich výrobkov na celom svete. Moja úloha zahŕňa pochopenie potrieb zákazníkov a tvorbu presvedčivých marketingových kampaní.

Nájdenie percenta „nan“ (nie číselných) hodnôt v súbore údajov je rozhodujúcim krokom v predbežnom spracovaní a analýze údajov. Ako dodávateľ vysoko kvalitných výrobkov týkajúcich sa sieťových zariadení vrátaneXpon 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4aXpon ONU 4GE WIFI5 AC1200, Chápem dôležitosť presného spracovania údajov v rôznych oblastiach. V tomto blogu sa podelím o niekoľko praktických metód na výpočet percentuálneho podielu hodnôt „Nan“ v súbore údajov.

Pochopenie významu „Nan“ hodnôt

Pred potápaním sa do metód výpočtu je nevyhnutné pochopiť, prečo záleží na hodnotách „Nan“. V analýze údajov môžu hodnoty „NAN“ predstavovať chýbajúce údaje, chyby pri zbere údajov alebo hodnoty, ktoré nie sú použiteľné. Ignorovanie týchto hodnôt môže viesť k nepresným štatistickým výsledkom, skresleným modelom a nespoľahlivým predpovediam. Napríklad v predajnom súbore údajov môžu hodnoty „Nan“ naznačovať chýbajúce údaje o predaji určitých produktov alebo časových období. Ak sa tieto hodnoty správne nezohľadňujú, celková analýza predaja by mohla byť zavádzajúca.

Predpoklady

Na výpočet percentuálneho podielu „Nan“ hodnoty budete potrebovať súbor údajov a programovací jazyk s funkciami manipulácie s údajmi. Python je populárnou voľbou vďaka svojim rozsiahlym knižniciam ako Pandas a Numpy. Tu je krok - Sprievodca krokom, ako vykonať tento výpočet pomocou Pythonu.

Krok 1: Importujte potrebné knižnice

Po prvé, musíte importovať knižnice pand a numpy. Pandas sa používa na manipuláciu a analýzu údajov, zatiaľ čo Numpy poskytuje podporu pre veľké viacrozmerné polia a matice.

Importovať pandy ako PD import numpy ako np

Krok 2: Načítajte súbor údajov

Predpokladajme, že máte súbor údajov v súbore CSV. Môžete ho načítať pomocouread_csvFunkcia v pandách.

data = pd.read_csv ('your_dataset.csv')

Krok 3: Vypočítajte celkový počet hodnôt v súbore údajov

Na výpočet percenta hodnôt „Nan“ musíte najprv poznať celkový počet hodnôt v súbore údajov. Môžete použiťveľkosťAtribút dátového rámca.

GPU-11GN-V-RGPU-13GN-V

total_values = data.size

Krok 4: Vypočítajte počet hodnôt „Nan“

Pandas poskytuje pohodlný spôsob, ako spočítať počet hodnôt „Nan“ v dátovom rámci. Môžete použiťon ()metóda na vytvorenie booleovskej masky a potom zhrnúť všetkyPravdivýhodnoty.

nan_values = data.isna () sum () sum ().

Krok 5: Vypočítajte percento „Nan“ hodnôt

Teraz, keď máte celkový počet hodnôt a počet hodnôt „Nan“, môžete vypočítať percento.

Percentoge_nan = (nan_values / total_values) * 100 Print (F "Percentuálny podiel hodnôt nanov v súbore údajov je {Percentoge_nan}%")

Zaobchádzanie s rôznymi dátovými štruktúrami

Vyššie uvedená metóda funguje dobre pre tabuľkové údaje v DataFrame Pandas. Ak však pracujete s numpy poľa, proces je mierne odlišný.

import numpy ako np # Vytvorte vzorku numpy polí pole = np.array ([1, np.nan, 3, np.nan, 5]) # Vypočítajte celkový počet prvkov total_elements = array.size = (nan_elements / total_elements) * 100 tlač (F „Percentuálny podiel„ nan “hodnôt v numpy poľa je {Percentage_nan_array}%“)

Vizualizácia hodnôt „Nan“

Vizualizácia môže poskytnúť lepšie porozumenie distribúcii hodnôt „Nan“ v súbore údajov. Na vytvorenie tepelných alebo stĺpcových grafov môžete použiť knižnice ako MatPlotlib alebo Seaborn.

Importovať morský ako SNS import matplotlib.pyplot ako plt # Vytvorte teplotu „nan“ hodnôt Sns.heatmap (data.isna (), cbar = false) plt.title ('distribúcia hodnôt nanov') plt.show ()

Zaobchádzanie s vysokými percentuálnymi hodnotami „Nan“

Ak je percento hodnôt „Nan“ vysoké, musíte sa rozhodnúť, ako s nimi zvládnuť. Niektoré bežné stratégie zahŕňajú:

  • Odstránenie riadkov alebo stĺpcov: Ak má riadok alebo stĺpec veľké množstvo hodnôt „Nan“, môžete zvážiť jeho odstránenie. Tento prístup však môže viesť k strate cenných informácií.
  • Imputácia: Hodnoty „Nan“ môžete vyplniť príslušnými hodnotami, ako sú priemer, medián alebo režim non - „nan“ hodnôt v rovnakom stĺpci.
# Impoute 'nan' hodnoty pomocou priemerných údajov.fillna (data.mean (), inplace = true)

Záver

Výpočet percentuálneho podielu „Nan“ hodnôt v súbore údajov je dôležitým krokom v analýze údajov. Pomáha vám pochopiť kvalitu vašich údajov a rozhodnúť sa, ako spracovať chýbajúce hodnoty. Ako dodávateľ sieťových zariadení akoXpon 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4aXpon ONU 4GE WIFI5 AC1200, chápeme dôležitosť presných údajov pri optimalizácii výkonnosti siete a prijímaní informovaných obchodných rozhodnutí.

Ak máte záujem o naše produkty alebo máte akékoľvek otázky týkajúce sa analýzy údajov v kontexte správy siete, neváhajte nás kontaktovať kvôli obstarávaniu a ďalším diskusiám. Sme tu, aby sme vám poskytli najlepšie riešenia pre vaše potreby.

Odkazy

  • McKinney, W. (2017). Python na analýzu údajov: Dáta sa krútia s pandami, numpy a ipython. O'Reilly Media.
  • Vanderplas, J. (2016). Príručka Python Data Science Handbook: Základné nástroje na prácu s údajmi. O'Reilly Media.
Zaslať požiadavku
Kontaktujte násAk máte nejaké otázky

Môžete nás buď kontaktovať prostredníctvom telefónu, e -mailu alebo online formulára nižšie. Náš špecialista vás čoskoro bude kontaktovať.

Kontaktujte teraz!