- Задача: определить категорию товара по данным из смоделированных чеков.
- 10 место (из 265) public leaderboard
- create_dataset.ipynb - создание вспомогательных данных
- SVC.ipynb - модель предсказания на LinearSVC
Основная идея, которая помогла подняться в рейтинге, это добавление некоторого набора ключевых слов для каждого уникального товара.
Мы могли бы найти для каждого товара какой-нибудь топ N самых часто встречающихся товаров внутри чека. Но train и test не пересекается по товарам. Поэтому похожую идею я реализовал для слов. Создал словарь: слово - упорядоченный список близких к нему слов. И далее для каждого названия товара по словам, из которых он состоит, составил "описание из ключевых слов".