Nájdenie percenta „nan“ (nie číselných) hodnôt v súbore údajov je rozhodujúcim krokom v predbežnom spracovaní a analýze údajov. Ako dodávateľ vysoko kvalitných výrobkov týkajúcich sa sieťových zariadení vrátaneXpon 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4aXpon ONU 4GE WIFI5 AC1200, Chápem dôležitosť presného spracovania údajov v rôznych oblastiach. V tomto blogu sa podelím o niekoľko praktických metód na výpočet percentuálneho podielu hodnôt „Nan“ v súbore údajov.
Pochopenie významu „Nan“ hodnôt
Pred potápaním sa do metód výpočtu je nevyhnutné pochopiť, prečo záleží na hodnotách „Nan“. V analýze údajov môžu hodnoty „NAN“ predstavovať chýbajúce údaje, chyby pri zbere údajov alebo hodnoty, ktoré nie sú použiteľné. Ignorovanie týchto hodnôt môže viesť k nepresným štatistickým výsledkom, skresleným modelom a nespoľahlivým predpovediam. Napríklad v predajnom súbore údajov môžu hodnoty „Nan“ naznačovať chýbajúce údaje o predaji určitých produktov alebo časových období. Ak sa tieto hodnoty správne nezohľadňujú, celková analýza predaja by mohla byť zavádzajúca.
Predpoklady
Na výpočet percentuálneho podielu „Nan“ hodnoty budete potrebovať súbor údajov a programovací jazyk s funkciami manipulácie s údajmi. Python je populárnou voľbou vďaka svojim rozsiahlym knižniciam ako Pandas a Numpy. Tu je krok - Sprievodca krokom, ako vykonať tento výpočet pomocou Pythonu.
Krok 1: Importujte potrebné knižnice
Po prvé, musíte importovať knižnice pand a numpy. Pandas sa používa na manipuláciu a analýzu údajov, zatiaľ čo Numpy poskytuje podporu pre veľké viacrozmerné polia a matice.
Importovať pandy ako PD import numpy ako np
Krok 2: Načítajte súbor údajov
Predpokladajme, že máte súbor údajov v súbore CSV. Môžete ho načítať pomocouread_csvFunkcia v pandách.
data = pd.read_csv ('your_dataset.csv')
Krok 3: Vypočítajte celkový počet hodnôt v súbore údajov
Na výpočet percenta hodnôt „Nan“ musíte najprv poznať celkový počet hodnôt v súbore údajov. Môžete použiťveľkosťAtribút dátového rámca.


total_values = data.size
Krok 4: Vypočítajte počet hodnôt „Nan“
Pandas poskytuje pohodlný spôsob, ako spočítať počet hodnôt „Nan“ v dátovom rámci. Môžete použiťon ()metóda na vytvorenie booleovskej masky a potom zhrnúť všetkyPravdivýhodnoty.
nan_values = data.isna () sum () sum ().
Krok 5: Vypočítajte percento „Nan“ hodnôt
Teraz, keď máte celkový počet hodnôt a počet hodnôt „Nan“, môžete vypočítať percento.
Percentoge_nan = (nan_values / total_values) * 100 Print (F "Percentuálny podiel hodnôt nanov v súbore údajov je {Percentoge_nan}%")
Zaobchádzanie s rôznymi dátovými štruktúrami
Vyššie uvedená metóda funguje dobre pre tabuľkové údaje v DataFrame Pandas. Ak však pracujete s numpy poľa, proces je mierne odlišný.
import numpy ako np # Vytvorte vzorku numpy polí pole = np.array ([1, np.nan, 3, np.nan, 5]) # Vypočítajte celkový počet prvkov total_elements = array.size = (nan_elements / total_elements) * 100 tlač (F „Percentuálny podiel„ nan “hodnôt v numpy poľa je {Percentage_nan_array}%“)
Vizualizácia hodnôt „Nan“
Vizualizácia môže poskytnúť lepšie porozumenie distribúcii hodnôt „Nan“ v súbore údajov. Na vytvorenie tepelných alebo stĺpcových grafov môžete použiť knižnice ako MatPlotlib alebo Seaborn.
Importovať morský ako SNS import matplotlib.pyplot ako plt # Vytvorte teplotu „nan“ hodnôt Sns.heatmap (data.isna (), cbar = false) plt.title ('distribúcia hodnôt nanov') plt.show ()
Zaobchádzanie s vysokými percentuálnymi hodnotami „Nan“
Ak je percento hodnôt „Nan“ vysoké, musíte sa rozhodnúť, ako s nimi zvládnuť. Niektoré bežné stratégie zahŕňajú:
- Odstránenie riadkov alebo stĺpcov: Ak má riadok alebo stĺpec veľké množstvo hodnôt „Nan“, môžete zvážiť jeho odstránenie. Tento prístup však môže viesť k strate cenných informácií.
- Imputácia: Hodnoty „Nan“ môžete vyplniť príslušnými hodnotami, ako sú priemer, medián alebo režim non - „nan“ hodnôt v rovnakom stĺpci.
# Impoute 'nan' hodnoty pomocou priemerných údajov.fillna (data.mean (), inplace = true)
Záver
Výpočet percentuálneho podielu „Nan“ hodnôt v súbore údajov je dôležitým krokom v analýze údajov. Pomáha vám pochopiť kvalitu vašich údajov a rozhodnúť sa, ako spracovať chýbajúce hodnoty. Ako dodávateľ sieťových zariadení akoXpon 1GE 1GE 1GE VOIP CAVT WIFI44,Xpon onu 1ge 3fe voip wifi4aXpon ONU 4GE WIFI5 AC1200, chápeme dôležitosť presných údajov pri optimalizácii výkonnosti siete a prijímaní informovaných obchodných rozhodnutí.
Ak máte záujem o naše produkty alebo máte akékoľvek otázky týkajúce sa analýzy údajov v kontexte správy siete, neváhajte nás kontaktovať kvôli obstarávaniu a ďalším diskusiám. Sme tu, aby sme vám poskytli najlepšie riešenia pre vaše potreby.
Odkazy
- McKinney, W. (2017). Python na analýzu údajov: Dáta sa krútia s pandami, numpy a ipython. O'Reilly Media.
- Vanderplas, J. (2016). Príručka Python Data Science Handbook: Základné nástroje na prácu s údajmi. O'Reilly Media.
