V oblasti vedy o údajoch a strojovom učení je zaobchádzanie s chýbajúcimi hodnotami, často reprezentované ako „Nan“ (nie číslo), kritickým aspektom inžinierstva údajov. Ako dodávateľ špecializujúci sa na výrobky súvisiace s hodnotami „NAN“ som bol svedkom rôznych perspektív a postupov týkajúcich sa ich používania v tejto oblasti. Cieľom tohto blogového príspevku je preskúmať, či je možné „Nan“ hodnoty efektívne využívať pri inžinierstve dátových funkcií, ponorenie sa do potenciálnych výhod, výziev a praktických aplikácií.
Pochopenie „Nan“ hodnôt
Pred diskusiou o ich použití v inžinierstve funkcií je nevyhnutné pochopiť, čo sú hodnoty „Nan“. V programovacích jazykoch, ako je Python, je „Nan“ špeciálna hodnota s pohyblivou rádovou čiarkou, ktorá sa používa na reprezentáciu nedefinovaných alebo nezrepeniteľných číselných výsledkov. Napríklad vydelenie nuly nulou alebo prevzatie druhej odmocniny záporného čísla v kontexte, kde zložité čísla nie sú podporované, môže mať za následok hodnotu „Nan“.
V súbore údajov, hodnoty „Nan“ zvyčajne označujú chýbajúce údaje. Mohlo by to byť z rôznych dôvodov, ako sú chyby zadávania údajov, poruchy senzora alebo neúplné prieskumy. Hodnoty „Nan“ sa tradične považujú za nepríjemné, ktoré je potrebné pred ďalšou analýzou odstrániť alebo imputovať. Existujú však situácie, keď tieto hodnoty môžu mať cenné informácie.
Potenciálne výhody použitia „Nan“ hodnôt v inžinierstve funkcií
1. Identifikácia vzorcov chýbania
Prítomnosť alebo neprítomnosť „nan“ hodnôt v súbore údajov môže odhaliť základné vzorce. Napríklad, ak má konkrétna vlastnosť vysoký podiel hodnoty „Nan“ v konkrétnej podskupine údajov, môže to naznačovať problém s procesom zberu údajov pre túto podmnožinu. Vytvorením nových funkcií založených na vzoroch chýbania môžeme potenciálne zlepšiť výkon modelov strojového učenia.


Zvážte súbor údajov o transakciách zákazníkov, kde niektorí zákazníci majú pre svoje kreditné skóre chýbajúce hodnoty. Namiesto toho, aby sme tieto hodnoty jednoducho imputovali, môžeme vytvoriť binárnu funkciu, ktorá naznačuje, či kreditné skóre zákazníka chýba alebo nie. Táto nová funkcia by mohla zachytiť dôležité informácie o rizikovom profile zákazníka, pretože zákazníci s chýbajúcimi kreditnými skóre by mohli s väčšou pravdepodobnosťou zlyhať pri svojich platbách.
2. Začlenenie neistoty
V niektorých prípadoch môžu hodnoty „Nan“ predstavovať skutočnú neistotu v údajoch. Napríklad v dátovom súbore časových radov mohla hodnota „Nan“ v konkrétnom časovom kroku naznačovať, že meranie nebolo k dispozícii alebo bolo nespoľahlivé. Udržiavaním týchto „nan“ hodnôt v súbore údajov a použitím príslušných algoritmov, ktoré dokážu spracovať chýbajúce údaje, môžeme do našich modelov zahrnúť túto neistotu.
Jedným z prístupov je použitie pravdepodobnostných modelov, ktoré môžu odhadnúť rozdelenie pravdepodobnosti chýbajúcich hodnôt. Tieto modely potom môžu generovať viac možných imputácií, čo nám umožňuje zodpovedať za neistotu v údajoch. To môže viesť k robustnejším a presnejším predpovediam, najmä v situáciách, keď chýbajúce údaje nechýbajú úplne náhodne.
3. Výber funkcií a zníženie rozmernosti
Prítomnosť hodnôt „Nan“ sa môže použiť aj ako kritérium pre výber prvkov. Funkcie s veľkým počtom hodnôt „Nan“ môžu byť menej informatívne alebo ťažšie s nimi. Odstránením týchto funkcií alebo priradením nižších váh môžeme znížiť rozmernosť súboru údajov a potenciálne zlepšiť výkon našich modelov.
Napríklad vo vysokorozmernom súbore údajov so stovkami funkcií môžu mať niektoré vlastnosti významnú časť „Nan“ hodnôt. Identifikáciou týchto funkcií a ich odstránením z súboru údajov sa môžeme zamerať na informatívnejšie funkcie a znížiť výpočtovú zložitosť našich modelov.
Výzvy pri používaní „Nan“ hodnôt v inžinierstve funkcií
1. Kompatibilita s algoritmami strojového učenia
Nie všetky algoritmy strojového učenia dokážu priamo spracovať hodnoty „Nan“. Mnoho algoritmov, ako je lineárna regresia, rozhodovacie stromy a neurónové siete, vyžaduje dokončenie vstupných údajov. Preto, ak chceme tieto algoritmy používať, musíme údaje predpätie predpätia, aby sme odstránili alebo napodali hodnoty „Nan“.
Niektoré algoritmy, ako sú náhodné lesy a stroje na zvyšovanie gradientov, však do istej miery zvládajú chýbajúce údaje. Tieto algoritmy môžu údaje rozdeliť na základe prítomnosti alebo neprítomnosti hodnôt „Nan“, čo im umožňuje zachytiť informácie obsiahnuté v vzoroch chýbania.
2. Imputačná zaujatosť
Pri imputácii hodnôt „Nan“ existuje riziko zavedenia zaujatosti do súboru údajov. Výber metódy imputácie môže mať významný vplyv na výkon modelov strojového učenia. Napríklad, ak na vyplnenie chýbajúcich hodnôt použijeme priemernú imputáciu, predpokladáme, že chýbajúce hodnoty sú podobné priemeru pozorovaných hodnôt. To nemusí platiť vo všetkých prípadoch, najmä ak chýbajúce údaje úplne nechýbajú náhodne.
Na zmiernenie tohto rizika môžeme použiť sofistikovanejšie metódy imputácie, ako je viacnásobná imputácia alebo imputácia založená na modeli. Tieto metódy môžu generovať viac možných imputácií na základe pozorovaných údajov a základného rozdelenia chýbajúcich hodnôt, čím sa zníži zaujatosť zavedená procesom imputácie.
3. Únik údajov
Pri použití hodnôt „Nan“ v inžinierstve funkcií existuje riziko úniku údajov. Únik údajov nastane, keď sa informácie z testovacej sady neúmyselne používajú v tréningovom procese, čo vedie k nadmerným odhadom výkonnosti. Napríklad, ak napíšeme hodnoty „Nan“ v tréningovej sade pomocou informácií z testovacej sady, model sa môže naučiť spoliehať sa na tieto informácie a zle vykonávať nové údaje.
Aby sme zabránili úniku údajov, musíme zabezpečiť, aby sa proces imputácie vykonal osobitne na výcvikových a testovacích súboroch. Môžeme použiť súpravu tréningu na odhad parametrov metódy imputácie a potom rovnakú metódu použiť na testovaciu sadu bez použitia akýchkoľvek informácií z testovacej sady.
Praktické aplikácie používania hodnôt „Nan“ v inžinierstve funkcií
1. Zdravotná starostlivosť
V zdravotníctve sa hodnoty „Nan“ môžu použiť na reprezentáciu chýbajúcich lekárskych záznamov alebo výsledkov testov. Vytvorením nových funkcií založených na vzoroch chýbania môžeme potenciálne identifikovať pacientov s vysokým rizikom vzniku určitých chorôb. Napríklad, ak má pacient chýbajúcu hodnotu pre konkrétny biomarker, mohlo by to naznačovať, že pacient neprešiel potrebným testom. Tieto informácie sa môžu použiť na priority ďalšieho testovania a liečby.
2. Financie
Vo financiách sa hodnoty „Nan“ môžu použiť na reprezentáciu chýbajúcich finančných údajov, ako sú ceny akcií alebo úverové ratingy. Začlenením informácií o chýbaní do našich modelov môžeme potenciálne zlepšiť presnosť našich hodnotení rizika a investičných rozhodnutí. Napríklad, ak má spoločnosť chýbajúcu hodnotu pre svoj zisk na akciu, môže naznačovať, že spoločnosť čelí finančným ťažkostiam. Tieto informácie sa môžu podľa toho použiť na prispôsobenie našej investičnej stratégie.
3. Internet vecí (IoT)
V aplikáciách IoT sa „Nan“ hodnoty môžu použiť na reprezentáciu chýbajúcich odčítaní senzorov. Použitím vhodných algoritmov, ktoré dokážu spracovať chýbajúce údaje, môžeme zabezpečiť spoľahlivosť a presnosť našich systémov IoT. Napríklad v inteligentnom domácom systéme, ak má senzor pre teplotu chýbajúcu hodnotu, môže to naznačovať, že senzor nefunguje. Tieto informácie sa môžu použiť na spustenie výstražnej a harmonogramu údržby.
Záver
Záverom možno povedať, že hodnoty „Nan“ sa môžu efektívne používať v inžinierstve dátových funkcií, vyžaduje si však dôkladné zváženie potenciálnych výhod a výziev. Identifikáciou vzorcov chýbania, začlenením neistoty a použitím vhodných algoritmov a metód imputácie môžeme využiť informácie obsiahnuté v „nan“ hodnotách na zlepšenie výkonu našich modelov strojového učenia.
Ako dodávateľ produktov týkajúcich sa hodnôt „Nan“ ponúkame celý rad riešení, ktoré vám pomôžu spracovať chýbajúce údaje vo vašich súboroch údajov. Naše produkty zahŕňajú nástroje na predbežné spracovanie údajov, imputačné algoritmy a modely strojového učenia, ktoré dokážu spracovať chýbajúce údaje. Ak máte záujem dozvedieť sa viac o tom, ako vám naše produkty môžu pomôcť s potrebami inžinierstva údajov, kontaktujte nás a prediskutujte svoje požiadavky.
Pokiaľ ide o súvisiace produkty, možno vás zaujíma aj nasledujúce:
Odkazy
- Little, RJA a Rubin, DB (2019). Štatistická analýza s chýbajúcimi údajmi. Wiley.
- Van Buuren, S. (2018). Flexibilná imputácia chýbajúcich údajov. Chapman a Hall/CRC.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). Prvky štatistického učenia: ťažba údajov, inferencia a predpoveď. Springer.
