Butuh Clustering ? Pakai k-Mean aja

k-mean

Konsep Dasar

k-Mean termasuk dalam teknik clustering yang berguna untuk membagi data menjadi beberapa cluster. Algoritma ini termasuk dalam unsupervised learning yang berarti tidak butuh variabel dependent (Y). Huruf k disini menunjukkan banyaknya cluster yang dipilih.

Prinsip kerja algoritma ini adalah mengelompokkan objek ke centroid terdekat. Centroid disini didapatkan dari pengambilan secara acak sebanyak k objek dari total n objek. Sehingga tahapan dari algoritma ini adalah

  1. Tentukan k buah cluster
  2. Pilih sejumlah k buah objek secara ajak yang akan dijadikan sebagai centroid cluster
  3. Tentukan k buah centroid (titik tengah)
  4. Kelompokkan objek ke centroid cluster terdekat berdasarkan jarak euclidian
  5. Hitung kembali semua nilai titik centroid
  6. Ulangi langkahb 3 s.d 5 sampai nilai titik centroid tidak berubah lagi

Baca Juga : Klasifikasi Menggunakan k-NN

Centroid

Setiap cluster memiliki tikik pusat yang dikenal sebagai centroid. Pada awal pembentukan cluster, nilai centroid ditentukan secara random. Namun kemudian nilai centroid ditentukan berdasarkan rumus ini

\[ c = \sum_{i=1}^{n} \frac{x_i}{n} \]

dimana

\[ c \]centroid pada cluster
\[ x_i \]objek ke i
\[ n \]jumlah objek

Aplikasi

1. R Code

Kita akan mengggunakan data mtcars sebagai contoh dari penerapan k-mean. Report secara lengkap dapat dilihat di Rpubs .

2. Python Code

Kita akan menggunakan data iris sebagai data contoh untuk penerapan k-mean. Report secara lengkap bisa dilihat di Jupyter Notebook ini.

Reference

  • https://realpython.com/k-means-clustering-python/
  • https://www.askpython.com/python/examples/plot-k-means-clusters-python
  • https://seaborn.pydata.org/generated/seaborn.scatterplot.html

Leave a Reply

Your email address will not be published.

Related posts