forked from Serenitas/topic-modeller
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathзаметки.txt
39 lines (25 loc) · 1.84 KB
/
заметки.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
сделать отгрызание вместо стемминга +
учитывать при адаптации что слово все-таки прилагательное +
строить словарь прилагательных +
починить существительные на "мя" +
попробовать поподбирать новые шаблоны - позже
протестировать на большой-большой куче текстов
разделить выпуски на статьи - не я
можно попытаться починить причастия
учитывать местоимения (SPRO, APRO)
классификатор документов по темам +
стоп-слова +
красивые таблички и графички: сравнение LDA, PLSA, ARTM +
tf-idf
дождаться большой коллекции и тестировать на ней +
tf-idf - отсортировать документы по убыванию, выбирать по темам +
количество токенов пропорциональное вероятности темы +
искать нграммы окном (не по одному слову!) +
можно попытаться починить причастия - сложно сделать по глаголу, нужно строить словарь
учитывать местоимения (SPRO, APRO) +
Time: 205.979984998703 - corpora_builder.py ~0.6 док/сек
Time: 11.456009149551392 - topics.py ~11.3 док/сек
много всяких таблиц: разные коэффициенты, разные коллекции (размер, тематики), число итераций
схема программы
в презентацию:
примеры тем, примеры результатов