Normalisering er nyttig når dine data har varierende skalaer, og den algoritme, du bruger, ikke foretager antagelser om fordelingen af dine data, såsom k-nærmeste naboer og kunstige neurale netværk. Standardisering forudsætter, at dine data har en Gaussisk (klokkekurve) fordeling.
Hvornår skal vi normalisere data?
Dataene skal normaliseres eller standardiseres for at bringe alle variablerne i forhold til hinanden. Hvis en variabel f.eks. er 100 gange større end en anden (i gennemsnit), kan din model opføre sig bedre, hvis du normaliserer/standardiserer de to variable, så de er omtrent ækvivalente.
Hvad er forskellen mellem normalisering og standardisering?
Normalisering betyder typisk omskalering af værdierne til et område på [0, 1]. Standardisering betyder typisk omskalering af data til at have et middelværdi på 0 og en standardafvigelse på 1 (enhedsvarians).
Hvornår og hvorfor har vi brug for datanormalisering?
I enklere termer sørger normalisering for, at alle dine data ser ud og læses på samme måde på tværs af alle poster. Normalisering vil standardisere felter, herunder firmanavne, kontaktnavne, URL'er, adresseoplysninger (gader, stater og byer), telefonnumre og job titler.
Hvordan vælger du normalisering og standardisering?
I erhvervslivet betyder "normalisering" typisk, at rækkevidden af værdier er"normaliseret til at være fra 0,0 til 1,0". "Standardisering" betyder typisk, at intervallet af værdier er "standardiseret" for at måle, hvor mange standardafvigelser værdien er fra dens middelværdi.