Normalointi on hyödyllistä kun tiedoillasi on vaihtelevia asteikkoja ja käyttämäsi algoritmi ei tee oletuksia tietojesi jakautumisesta, kuten k-lähimmät naapurit ja keinotekoiset hermot verkkoja. Standardointi olettaa, että tiedoillasi on Gaussin (kellokäyrä) -jakauma.
Milloin tiedot pitäisi normalisoida?
Tiedot tulee normalisoida tai standardoida jotta kaikki muuttujat saadaan suhteutettua toisiinsa. Jos esimerkiksi yksi muuttuja on 100 kertaa suurempi kuin toinen (keskimäärin), mallisi saattaa toimia paremmin, jos normalisoit/standardoit kaksi muuttujaa suunnilleen vastaaviksi.
Mitä eroa on normalisoinnin ja standardoinnin välillä?
Normalointi tarkoittaa yleensä sitä, että arvot skaalataan uudelleen alueelle [0, 1]. Standardointi tarkoittaa tyypillisesti tietojen skaalaamista uudelleen niin, että sen keskiarvo on 0 ja keskihajonta 1 (yksikkövarianssi).
Milloin ja miksi tarvitsemme tietojen normalisointia?
Yksinkertaisemmin sanottuna normalisointi varmistaa, että kaikki tietosi näyttää ja luetaan samalla tavalla kaikissa tietueissa. Normalisointi standardoi kentät, mukaan lukien yritysten nimet, yhteyshenkilöiden nimet, URL-osoitteet, osoitetiedot (kadut, osav altiot ja kaupungit), puhelinnumerot ja työnimikkeet.
Miten valitset normalisoinnin ja standardoinnin?
Yritysmaailmassa "normalisointi" tarkoittaa tyypillisesti sitä, että arvoalue on"normalisoitu arvosta 0,0 arvoon 1,0". "Standardointi" tarkoittaa tyypillisesti, että arvoalueet "standardoidaan" mittaamaan, kuinka monta standardipoikkeamaa arvo on keskiarvostaan.