SastrawiJs is a javascript package for doing stemming in Indonesian language. It is based from Sastrawi for PHP by Andy Librian. For more information in english, see README.
SastrawiJs adalah package javascript untuk melakukan stemming pada bahasa Indonesia. Dikembangkan dari Sastrawi untuk PHP yang dibuat oleh Andy Librian.
Dari Wikipedia, stemming adalah proses untuk mengubah kata berimbuhan menjadi kata dasar. Contohnya :
- menahan => tahan
- pewarna => warna
Untuk browser/client javascript
<script src="stemmer.js"></script>
<script src="tokenizer.js"></script>
Untuk node.js
npm install sastrawijs
import { Stemmer, Tokenizer } from 'sastrawijs'
var sastrawijs = require('sastrawijs');
const sentence = 'Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan'
const stemmed = []
const stemmer = new Stemmer()
const tokenizer = new Tokenizer()
const words = tokenizer.tokenize(sentence)
for (const word of words) {
stemmed.push(stemmer.stem(word))
}
console.log(stemmed);
const sentence = 'Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan'
const stemmed = []
const stemmer = new sastrawijs.Stemmer()
const tokenizer = new sastrawijs.Tokenizer()
const words = tokenizer.tokenize(sentence)
for (const word of words) {
stemmed.push(stemmer.stem(word))
}
console.log(stemmed);
Selain menggunakan kamus kata dasar default, user juga dapat membuat kamus kata dasar sendiri.
var custom = ["hancur", "benar", "apa", "siapa", "jubah",
"baju", "beli", "celana", "hantu", "jual", "buku", "milik", "kulit",
"sakit", "kasih", "buang", "suap", "nilai", "beri", "rambut", "adu",
"suara", "daerah", "ajar", "kerja", "ternak", "asing", "raup", "gerak",
"puruk", "terbang", "lipat", "ringkas", "warna", "yakin", "bangun",
"fitnah", "vonis", "baru", "ajar", "tangkap", "kupas", "minum", "pukul",
"cinta", "dua", "jauh", "ziarah", "nuklir", "gila", "hajar", "qasar",
"udara", "populer", "warna", "yoga", "adil", "rumah", "muka", "labuh",
"tarung", "tebar", "indah", "daya", "untung", "sepuluh", "ekonomi",
"makmur", "telah", "serta", "percaya", "pengaruh", "kritik", "seko",
"sekolah", "tahan", "capa", "capai", "mula", "mulai", "petan", "tani",
"aba", "abai", "balas", "balik", "peran", "medan", "syukur", "syarat",
"bom", "promosi", "proteksi", "prediksi", "kaji", "sembunyi", "langgan",
"laku", "baik", "terang", "iman", "bisik", "taat", "puas", "makan",
"nyala", "nyanyi", "nyata", "nyawa", "rata", "lembut", "ligas",
"budaya", "karya", "ideal", "final", "taat", "tiru", "sepak", "kuasa",
"malaikat", "nikmat", "lewat", "nganga", "allah"];
var stemmer = new Stemmer(custom);
- Algoritma Nazief dan Adriani
- Asian J. 2007. Effective Techniques for Indonesian Text Retrieval. PhD thesis School of Computer Science and Information Technology RMIT University Australia. (PDF dan Amazon)
- Arifin, A.Z., I.P.A.K. Mahendra dan H.T. Ciptaningtyas. 2009. Enhanced Confix Stripping Stemmer and Ants Algorithm for Classifying News Document in Indonesian Language, Proceeding of International Conference on Information & Communication Technology and Systems (ICTS). (PDF)
- A. D. Tahitoe, D. Purwitasari. 2010. Implementasi Modifikasi Enhanced Confix Stripping Stemmer Untuk Bahasa Indonesia dengan Metode Corpus Based Stemming, Institut Teknologi Sepuluh Nopember (ITS) – Surabaya, 60111, Indonesia. (PDF)
- Tambahan aturan stemming dari kontributor Sastrawi.
Proses stemming oleh Sastrawi sangat bergantung pada kamus kata dasar. Sastrawi menggunakan kamus kata dasar dari kateglo.com dengan sedikit perubahan.
Sebagaimana Sastrawi untuk PHP, SastrawiJs juga disebarkan dengan lisensi MIT. Untuk lisensi kamus kata dasar dari Kateglo adalah CC-BY-NC-SA 3.0.
- Sastrawi - PHP
- JSastrawi - Java
- cSastrawi - C
- PySastrawi - Python
- Go-Sastrawi - Go
- Sastrawi-Ruby - Ruby