Название исследуемой задачи: | Итеративное улучшение тематической модели с обратной связью от пользователя |
---|---|
Тип научной работы: | M1P |
Автор: | Алексей Ильич Горбулев |
Научный руководитель: | д. ф.-м. н., Воронцов Константин Вячеславович |
Научный консультант(при наличии): | Алексеев Василий Антонович |
(RUS) В работе представлен метод тематического моделирования с использованием обратной связи от пользователя. Обратная связь заключается в определении принадлежности темы, полученной при тематическом моделировании, к одной из трёх категорий: релевантная, нерелевантная, <<мусорная>>. Основная задача состоит в улучшении базовой модели, которое заключается в выделении новых релевантных тем при сохранении выделенных тем и уменьшении числа <<мусорных>> тем. В работе предлагается решение с использованием библиотек тематического моделирования и регуляризаторов сглаживания и декоррелирования. Вычислительный эксперимент проводится на текстовой коллекции, основанной на новостях сайта Lenta.ru.
(ENG) We introduce the method of topic modeling using user feedback. The user marks a topic as relevant, irrelevant, or "garbage". The main problem is to improve the base model preserving relevant topics. The number of "garbage" topics should decrease. We provide the solution using topic modeling algorithms and regularizers for sparsing and decorrelation. We run the experiment on Lenta.ru news dataset.
- Отчетная конференция научного трека инновационного практикума ФПМИ 2023 (Russian) <https://indico-workshop.samcs.ru/event/3/>
- A code with all experiment visualisation here.