Eсть дамп chitalnya.ru (link), там есть пользовательские оценки стихотворений. Сделать систему, оценивающую стихотворение на входе.
Задачи:
- Разобраться в задаче, посмотреть на данные. Какую модель мы можем сделать на таких данных, а какую не можем, какие есть подводные камни? Описать вводные условия, предположения и допущения.
- Выбрать метрику, обосновать выбор
- Сделать ранжировщик/оценщик для произвольного стихотворения (датасет со стихотворениями я дам), можно использовать любые методы, включая gpt4 (токен я не дам)
- Сделать санити-чек системы, метрик и вообще всей получившейся конструкции (как? —надо придумать.)
- Написать отчёт с выводами, гипотезами и future work
- Приветствуются креативные идеи и нестандартные подходы. Вас никто не ограничивает ни в чём, датасет — это лишь стартовая точка. Ключевое требование проекта — поработать головой. 99.999% качества на тестовой выборке не требуется и (подсказка!) будет работать скорее против вас.