Klasterlashdan oldin ma'lumotlarni normallashtirishimiz kerakmi?

Klasterlashdan oldin ma'lumotlarni normallashtirishimiz kerakmi?
Klasterlashdan oldin ma'lumotlarni normallashtirishimiz kerakmi?
Anonim

Normallashtirish ortiqcha ma'lumotlarni yo'q qilish uchun ishlatiladi va klasterlash algoritmlari samaradorligini oshirishi mumkin bo'lgan sifatli klasterlar yaratilishini ta'minlaydi. Shunday qilib, Evklid masofasi sifatida klasterlashdan oldin muhim qadam bo'ladi. farqlardagi oʻzgarishlarga juda sezgir[3].

K-means klasterlash uchun ma'lumotlarni normallashtirishimiz kerakmi?

K-NN usulida bo'lgani kabi, klasterlash uchun ishlatiladigan xarakteristikalar solishtirma birliklarda o'lchanishi kerak. Bunday holda, birliklar muammo emas, chunki barcha 6 xususiyat 5 balli shkalada ifodalanadi. Normallashtirish yoki standartlashtirish shart emas.

Klasterlashdan oldin ma'lumotlarni qanday tayyorlaysiz?

Ma'lumotlarni tayyorlash

Rda klaster tahlilini amalga oshirish uchun, odatda, ma'lumotlar quyidagicha tayyorlanishi kerak: Satrlar kuzatishlar (individuallar) va ustunlar o'zgaruvchilardir. Ma'lumotlardagi etishmayotgan qiymatni olib tashlash yoki taxmin qilish kerak. Oʻzgaruvchilarni solishtirish uchun maʼlumotlar standartlashtirilgan (yaʼni masshtabli) boʻlishi kerak.

Ma'lumotlarni klasterlash uchun masshtablash kerakmi?

Klasterlashda siz ikkita misol oʻrtasidagi oʻxshashlikni oʻsha misollar uchun barcha xususiyat maʼlumotlarini raqamli qiymatga birlashtirish orqali hisoblaysiz. Funksiya maʼlumotlarini birlashtirish uchun maʼlumotlar bir xil masshtabga ega boʻlishini talab qiladi.

Nega klasterlashdan oldin xususiyatlarni normallashtirish muhim?

Standartlashtirish ma'lumotlarning muhim bosqichidiroldindan ishlov berish.

Ushbu maqolada tushuntirilganidek, k-vositalari Nyuton algoritmi, ya'ni gradientga asoslangan optimallashtirish algoritmi yordamida xato funksiyasini minimallashtiradi. Ma'lumotlarni normallashtirish bunday algoritmlarning konvergentsiyasini yaxshilaydi.

Tavsiya: