Moet ons data normaliseer voor groepering?

Moet ons data normaliseer voor groepering?
Moet ons data normaliseer voor groepering?
Anonim

Normalisering word gebruik om oortollige data uit te skakel en verseker dat goeie kwaliteit trosse gegenereer word wat die doeltreffendheid van groeperingsalgoritmes kan verbeter. Dit word dus 'n noodsaaklike stap voor groepering as Euklidiese afstand is baie sensitief vir die veranderinge in die verskille[3].

Moet ons data normaliseer vir K-beteken groepering?

Soos in die k-NN-metode, moet die eienskappe wat vir groepering gebruik word in vergelykbare eenhede gemeet word. In hierdie geval is eenhede nie 'n probleem nie aangesien al 6 kenmerke op 'n 5-punt skaal uitgedruk word. Normalisering of standaardisering is nie nodig nie.

Hoe berei jy data voor voor groepering?

Datavoorbereiding

Om 'n groepanalise in R uit te voer, moet die data oor die algemeen soos volg voorberei word: Rye is waarnemings (individue) en kolomme is veranderlikes. Enige ontbrekende waarde in die data moet verwyder of geskat word. Die data moet gestandaardiseer word (d.w.s. geskaal) om veranderlikes vergelykbaar te maak.

Moet data geskaal word vir groepering?

In groepering bereken jy die ooreenkoms tussen twee voorbeelde deur al die kenmerkdata vir daardie voorbeelde in 'n numeriese waarde te kombineer. Die kombinasie van kenmerkdata vereis dat die data dieselfde skaal het.

Hoekom is dit belangrik om kenmerke te normaliseer voor groepering?

Standardisering is 'n belangrike stap van datavoorverwerking.

Soos in hierdie vraestel verduidelik, verminder die k-beteken die foutfunksie deur die Newton-algoritme te gebruik, dit wil sê 'n gradiënt-gebaseerde optimeringsalgoritme. Normalisering van die data verbeter die konvergensie van sulke algoritmes.

Aanbeveel: