Source: Spam/Ham Email Dataset
Algoritma J48 adalah sebuah algoritma turunan dari C4.5. Algoritma ini menghasilkan pohon biner dimana dalam proses klasifikasi pohon akan dibangun dan setiap tupel dari pohon tersebut akan diterapkan pada basis data dan hasil klasifikasi dari tupel tersebut. Algoritma J48 akan mengabaikan nilai yang tidak lengkap dalam proses pembuatan pohon. Dasar dari algoritma ini adalah untuk membagi data ke dalam beberapa bagian berdasarkan nilai atribut dari item yang ada pada training dataset. Algoritma J48 dapat melakukan klasifikasi baik melalui decision tree ataupun rules yang diperoleh dari pohon tersebut.Naive Bayes adalah algoritma machine learning yang sering digunakan dalam masalah klasifikasi teks. Naive Bayes didasarkan pada teorema Bayes. Algoritma Naive Bayes disebut "naif" karena membuat asumsi bahwa kemunculan fitur tertentu tidak tergantung pada kemunculan fitur lainnya. Salah satu model dari Naïve Bayes yang sering digunakan dalam klasifikasi teks adalah multinomial Naive Bayes. Multinomial Naive Bayes merupakan metode supervised learning sehingga setiap data perlu diberikan label sebelum dilakukan training. Pada penelitian kali ini, kami menggunakan Naive Bayes Multinomial Text.
Algoritma Naive Bayes lebih baik daripada J48 dalam kasus klasifikasi dan prediksi email spam. Naive bayes memiliki waktu yang lebih cepat dalam melakukan pemodelan dibandingkan J48. Terlihat pada gambar di atas hasil prediksi Naive Bayes lebih akurat daripada J48 dengan 20 email yang berhasil diklasifikasi dengan benar, sedangkan J48 hanya mengklasifikasi 17 email dengan benar.