Skip to content

Proyek ini bertujuan untuk memeriksa bahwa email yang diterima adalah spam atau ham melalui klasifikasi teks di WEKA menggunakan algoritma J48 Decision Tree dan Naive Bayes Multinomial Text.

License

Notifications You must be signed in to change notification settings

ammarsufyan/EmailSpamDetection-WEKA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

13 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Spam Detection Using Weka

Rumusan Masalah

Setiap hari pengguna email menerima ratusan spam dari alamat baru yang secara otomatis dihasilkan oleh robot pengirim email. Untuk menyaring spam dengan metode tradisional, seperti whitelist hampir tidak mungkin. Penerapan metode text mining pada email dapat meningkatkan efisiensi penyaringan spam.

Tujuan Penelitian

Untuk memeriksa bahwa email yang diterima adalah spam atau ham melalui klasifikasi teks di WEKA menggunakan algoritma J48 Decision Tree dan Naive Bayes Multinomial Text. Setelah itu, dilakukan perbandingan algoritma dengan parameter tertentu untuk menentukan algoritma yang terbaik dalam melakukan klasifikasi dan prediksi email spam.

Dataset

Source: Spam/Ham Email Dataset

Implementasi

Algoritma J48

Algoritma J48 adalah sebuah algoritma turunan dari C4.5. Algoritma ini menghasilkan pohon biner dimana dalam proses klasifikasi pohon akan dibangun dan setiap tupel dari pohon tersebut akan diterapkan pada basis data dan hasil klasifikasi dari tupel tersebut. Algoritma J48 akan mengabaikan nilai yang tidak lengkap dalam proses pembuatan pohon. Dasar dari algoritma ini adalah untuk membagi data ke dalam beberapa bagian berdasarkan nilai atribut dari item yang ada pada training dataset. Algoritma J48 dapat melakukan klasifikasi baik melalui decision tree ataupun rules yang diperoleh dari pohon tersebut.

Algoritma Naive Bayes

Naive Bayes adalah algoritma machine learning yang sering digunakan dalam masalah klasifikasi teks. Naive Bayes didasarkan pada teorema Bayes. Algoritma Naive Bayes disebut "naif" karena membuat asumsi bahwa kemunculan fitur tertentu tidak tergantung pada kemunculan fitur lainnya. Salah satu model dari Naïve Bayes yang sering digunakan dalam klasifikasi teks adalah multinomial Naive Bayes. Multinomial Naive Bayes merupakan metode supervised learning sehingga setiap data perlu diberikan label sebelum dilakukan training. Pada penelitian kali ini, kami menggunakan Naive Bayes Multinomial Text.

Kesimpulan

Algoritma Naive Bayes lebih baik daripada J48 dalam kasus klasifikasi dan prediksi email spam. Naive bayes memiliki waktu yang lebih cepat dalam melakukan pemodelan dibandingkan J48. Terlihat pada gambar di atas hasil prediksi Naive Bayes lebih akurat daripada J48 dengan 20 email yang berhasil diklasifikasi dengan benar, sedangkan J48 hanya mengklasifikasi 17 email dengan benar.

image

image

About

Proyek ini bertujuan untuk memeriksa bahwa email yang diterima adalah spam atau ham melalui klasifikasi teks di WEKA menggunakan algoritma J48 Decision Tree dan Naive Bayes Multinomial Text.

Topics

Resources

License

Stars

Watchers

Forks