Saat kita menggunakan algoritma machine learning untuk melakukan klasifikasi maupun prediksi, kita seringkali membagi dataset menjadi dua bagian yaitu data train dan data test. Data train digunakan untuk membentuk model, sedangkan data test digunakan untuk menguji model yang kita bangun untuk melihat seberapa tepat model yang kita bangun. Beberapa literatur menggunakan konsep 70:30 atau 80:20 untuk komposisi data train dan data test. Disini akan dicontohkan cara membagi data train dan data test di R dan Python.
Daftar Isi
1. Cara Pertama
Cara pertama bisa menggunakan konsep pengacakan baris. Pertama-tama kita bangkitkan sampel acak yang mempunyai ukuran yang sama dengan dataset, kemudian kita beri label sampel acak tersebut dengan angka 1 dan 2. Angka 1 menunjukkan label data train dan 2 menunjukkan label data test.
1.1 R Code
1.2 Python Code
2. Cara Kedua
Cara yang kedua bisa dibilang lebih mudah daripada cara yang pertama, karena kita akan menggunakan fungsi yang sudah disediakan di R dan Python untuk mempartisi dataset ke data train dan data test.
2.1 R Code