Spam Detection Using Weka

Rumusan Masalah

Setiap hari pengguna email menerima ratusan spam dari alamat baru yang secara otomatis dihasilkan oleh robot pengirim email. Untuk menyaring spam dengan metode tradisional, seperti whitelist hampir tidak mungkin. Penerapan metode text mining pada email dapat meningkatkan efisiensi penyaringan spam.

Tujuan Penelitian

Untuk memeriksa bahwa email yang diterima adalah spam atau ham melalui klasifikasi teks di WEKA menggunakan algoritma J48 Decision Tree dan Naive Bayes Multinomial Text. Setelah itu, dilakukan perbandingan algoritma dengan parameter tertentu untuk menentukan algoritma yang terbaik dalam melakukan klasifikasi dan prediksi email spam.

Dataset

Source: Spam/Ham Email Dataset

Implementasi

Algoritma J48

Algoritma J48 adalah sebuah algoritma turunan dari C4.5. Algoritma ini menghasilkan pohon biner dimana dalam proses klasifikasi pohon akan dibangun dan setiap tupel dari pohon tersebut akan diterapkan pada basis data dan hasil klasifikasi dari tupel tersebut. Algoritma J48 akan mengabaikan nilai yang tidak lengkap dalam proses pembuatan pohon. Dasar dari algoritma ini adalah untuk membagi data ke dalam beberapa bagian berdasarkan nilai atribut dari item yang ada pada training dataset. Algoritma J48 dapat melakukan klasifikasi baik melalui decision tree ataupun rules yang diperoleh dari pohon tersebut.

Algoritma Naive Bayes

Naive Bayes adalah algoritma machine learning yang sering digunakan dalam masalah klasifikasi teks. Naive Bayes didasarkan pada teorema Bayes. Algoritma Naive Bayes disebut "naif" karena membuat asumsi bahwa kemunculan fitur tertentu tidak tergantung pada kemunculan fitur lainnya. Salah satu model dari Naïve Bayes yang sering digunakan dalam klasifikasi teks adalah multinomial Naive Bayes. Multinomial Naive Bayes merupakan metode supervised learning sehingga setiap data perlu diberikan label sebelum dilakukan training. Pada penelitian kali ini, kami menggunakan Naive Bayes Multinomial Text.

Kesimpulan

Algoritma Naive Bayes lebih baik daripada J48 dalam kasus klasifikasi dan prediksi email spam. Naive bayes memiliki waktu yang lebih cepat dalam melakukan pemodelan dibandingkan J48. Terlihat pada gambar di atas hasil prediksi Naive Bayes lebih akurat daripada J48 dengan 20 email yang berhasil diklasifikasi dengan benar, sedangkan J48 hanya mengklasifikasi 17 email dengan benar.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Dataset		Dataset
Model		Model
Test		Test
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spam Detection Using Weka

Rumusan Masalah

Tujuan Penelitian

Dataset

Implementasi

Algoritma J48

Algoritma Naive Bayes

Kesimpulan

About

Contributors 2

License

ammarsufyan/EmailSpamDetection-WEKA

Folders and files

Latest commit

History

Repository files navigation

Spam Detection Using Weka

Rumusan Masalah

Tujuan Penelitian

Dataset

Implementasi

Algoritma J48

Algoritma Naive Bayes

Kesimpulan

About

Topics

Resources

License

Stars

Watchers

Forks

Contributors 2