Normalisering bruges til at eliminere overflødige data og sikrer, at der genereres klynger af god kvalitet, som kan forbedre effektiviteten af klyngealgoritmer. Så det bliver et væsentligt skridt før klyngedannelse som euklidisk afstand er meget følsom over for ændringerne i forskellene[3].
Behøver vi at normalisere data for K-betyder klyngedannelse?
Som i k-NN-metoden skal de karakteristika, der bruges til klyngedannelse, måles i sammenlignelige enheder. I dette tilfælde er enheder ikke et problem, da alle 6 karakteristika er udtrykt på en 5-punkts skala. Normalisering eller standardisering er ikke nødvendig.
Hvordan forbereder du data før klyngedannelse?
Dataforberedelse
For at udføre en klyngeanalyse i R, bør data generelt forberedes som følger: Rækker er observationer (individer) og kolonner er variable. Enhver manglende værdi i dataene skal fjernes eller estimeres. Dataene skal standardiseres (dvs. skaleres) for at gøre variabler sammenlignelige.
Skal data skaleres til klyngedannelse?
I klyngedannelse beregner du ligheden mellem to eksempler ved at kombinere alle featuredata for disse eksempler til en numerisk værdi. Kombination af funktionsdata kræver, at dataene har samme skala.
Hvorfor er det vigtigt at normalisere funktioner før klyngedannelse?
Standardisering er et vigtigt datatrinforbehandling.
Som forklaret i dette papir minimerer k-betydningen fejlfunktionen ved hjælp af Newton-algoritmen, dvs. en gradient-baseret optimeringsalgoritme. Normalisering af dataene forbedrer konvergensen af sådanne algoritmer.