-
Notifications
You must be signed in to change notification settings - Fork 111
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Peningkatan kecepatan #7
Comments
@ceefour Kalau tidak salah dulu saya pernah liat ada baris source code PySastrawi menggunaan list yang seharusnya menggunakan set. Coba nanti kita cek lagi bareng". |
kenapa kecepatanya lambat ya. saya coba stemmer 200an kalimat butuh waktu 1 menitan. tetapi menggunakan yang versi php tidak sampai 2 detik |
improve performa tidak harus di sisi pysastrawi, anda bisa simpan hasil kerja pysastrawi di suatu dict lalu ambil data disitu. Jika query anda sangat besar apalagi menggunakan processor high-end dengan banyak core, bisa pakai modul multiprocessing untuk memanfaatkan core yang tidak terpakai. also cachedstemmer belum dilanjutin. itu harusnya bisa solve performance issue untuk query gede |
Saya kirimkan perubahan untuk ArrayDictionarynya. Peningkatan performa sangat terasa, sekarang bisa digunakan untuk ribuan kalaimat dalam beberapa menit |
Mungkin untuk replacement kata perlu menggunakan lib yang dibahas di artikel ini https://medium.freecodecamp.org/regex-was-taking-5-days-flashtext-does-it-in-15-minutes-55f04411025f |
Untuk melakukan stemming 87000 paragraf di i7, membutuhkan waktu ~ 24 jam.
Kecepatannya sekitar 500-1000 ms per paragraf.
Sepertinya ada potensi untuk optimisasi, tapi saya sendiri belum tahu. :D
The text was updated successfully, but these errors were encountered: