Normalisering is nuttig wanneer jou data verskillende skale het en die algoritme wat jy gebruik nie aannames maak oor die verspreiding van jou data, soos k-naaste bure en kunsmatige neurale netwerke. Standaardisering neem aan dat jou data 'n Gaussiese (klokkurwe) verspreiding het.
Wanneer moet ons data normaliseer?
Die data moet genormaliseer of gestandaardiseer word om al die veranderlikes in verhouding met mekaar te bring. Byvoorbeeld, as een veranderlike 100 keer groter is as 'n ander (gemiddeld), dan kan jou model beter gedra as jy die twee veranderlikes normaliseer/standaardiseer om ongeveer ekwivalent te wees.
Wat is die verskil tussen normalisering en standaardisering?
Normalisering beteken tipies dat die waardes in 'n reeks van [0, 1] herskaal word. Standaardisering beteken tipies dat data herskaal word om 'n gemiddeld van 0 en 'n standaardafwyking van 1 (eenheidsafwyking) te hê.
Wanneer en hoekom het ons datanormalisering nodig?
In eenvoudiger terme, normalisering maak seker dat al jou data op dieselfde manier lyk en lees oor alle rekords. Normalisering sal velde standaardiseer, insluitend maatskappyname, kontakname, URL'e, adresinligting (strate, state en stede), telefoonnommers en postitels.
Hoe kies jy normalisering en standaardisering?
In die sakewêreld beteken "normalisering" tipies dat die reeks waardes is"genormaliseer om van 0.0 tot 1.0 te wees". "Standardisering" beteken tipies dat die reeks waardes "gestandaardiseer" is om te meet hoeveel standaardafwykings die waarde van sy gemiddelde is.