Daftar Isi
Konsep Dasar
k-Mean termasuk dalam teknik clustering yang berguna untuk membagi data menjadi beberapa cluster. Algoritma ini termasuk dalam unsupervised learning yang berarti tidak butuh variabel dependent (Y). Huruf k disini menunjukkan banyaknya cluster yang dipilih.
Prinsip kerja algoritma ini adalah mengelompokkan objek ke centroid terdekat. Centroid disini didapatkan dari pengambilan secara acak sebanyak k objek dari total n objek. Sehingga tahapan dari algoritma ini adalah
- Tentukan k buah cluster
- Pilih sejumlah k buah objek secara ajak yang akan dijadikan sebagai centroid cluster
- Tentukan k buah centroid (titik tengah)
- Kelompokkan objek ke centroid cluster terdekat berdasarkan jarak euclidian
- Hitung kembali semua nilai titik centroid
- Ulangi langkahb 3 s.d 5 sampai nilai titik centroid tidak berubah lagi
Baca Juga : Klasifikasi Menggunakan k-NN
Centroid
Setiap cluster memiliki tikik pusat yang dikenal sebagai centroid. Pada awal pembentukan cluster, nilai centroid ditentukan secara random. Namun kemudian nilai centroid ditentukan berdasarkan rumus ini
\[ c = \sum_{i=1}^{n} \frac{x_i}{n} \]dimana
\[ c \] | centroid pada cluster |
\[ x_i \] | objek ke i |
\[ n \] | jumlah objek |
Aplikasi
1. R Code
Kita akan mengggunakan data mtcars sebagai contoh dari penerapan k-mean. Report secara lengkap dapat dilihat di Rpubs .
2. Python Code
Kita akan menggunakan data iris sebagai data contoh untuk penerapan k-mean. Report secara lengkap bisa dilihat di Jupyter Notebook ini.
Reference
- https://realpython.com/k-means-clustering-python/
- https://www.askpython.com/python/examples/plot-k-means-clusters-python
- https://seaborn.pydata.org/generated/seaborn.scatterplot.html