Семестровый проект

Репозиторий семестрового проекта дисциплины "Инфопоиск" на курсах Техносфера для конкурса "Relevance prediction by user behaviour".

Задание выполнил Кононов Сергей, группа BD-31 весной 2020 года.

Код расположен в директории /src. В файле /presentation.pdf находится презентация проекта. В файле /guideline.pdf находится рекомендованный план решения. В директории /data/images находится схема взаимодействия компонентов системы, диаграмма важности признаков и график обучения модели. Все необходимые данные находянтся в на Google Drive.

Для тестирования кода предлагаются следующие сценарии:

Запуск LightGBM на готовом датасете
Предобработка текстов запросов и заголовков документов
Подсчёт синтаксических признаков
Посчёт семантических признаков
Соединение кликовых, синтаксических и семантических данных
Генерация похожих запросов

Краткое описание кода задач на Hadoop Map-Reduce находится в файле src/java/README.md

Запуск LightGBM на готовом датасете.

Для выполнения этого необходимо запустить файл /script_1.sh:

bash ./script_1.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Обучение ранажирующей модели
Подсчёт результатов для тестовой выборки
Сохранение результата в /resutl.csv

Необходимые требования:

python3.6
lightgbm
matplotib
scipy
numpy
pandas

Предобработка текстов.

Для выполнения этого необходимо запустить файл /script_2.sh. Для токенизацации типа 3_char и 4_char необходимо минимум 12GB RAM.

bash ./script_2.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Применение
1. Понижение регистра
2. Исправеление опечаток
3. Лемматизация
4. Токенизация
Сохранение результата в /data

Необходимые требования:

request
sklearn
progress
pymystem3
pandas

Подсчёта синтаксических признаков.

Для выполнения этого необходимо запустить файл /script_3.sh.

bash ./script_3.sh

Для корректной работы необходимо 15GB RAM. Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Создание словаря
Преобразование корпуса в корпус из предложений типа bag-of-words
Подсчёт статистик для моделей TF-IDF и BM-25 (по словам, парам слов, 3-граммам и 4-граммам)
Подсчёт занчение TF-IDF и BM-25
Сохранение результата в /data

Необходимые требования:

sklearn
numpy
pandas
gensim
msgpack

Подсчёт семантических признаков.

В виду высокой ресурсоёмкости вычислений, рекомендуется запускать код в Google Colab.

BERT в Googel Colab и в формате Jupyter Nootbook в /src/python/bert.ipynb
FastText в Google Colab и в формате Jupyter Nootbook в /src/python/fasttext.ipynb
USE в Google Colab и в формате Jupyter Nootbook в /src/python/use.ipynb
ELMo в Google Colab и в формате Jupyter Nootbook в /src/python/elmo.ipynb

Cоединения кликовых, синтаксические и семантические данных

Для выполнения этого необходимо запустить файл /script_4.sh

bash ./script_4.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Конкатенация признаков:
1. Синтаксические признаки - TF-IDF и BM-25 (по словам, парам слов, 3-граммам и 4-граммам)
2. Семантические признаки - BERT, FastText, ELMo, USE
3. Кликовые статистики
Сохранение результата в /data

Необходимые требования:

numpy
pandas
scipy

Генерация похожих запросов

Код расположен в Google Colab и в формате Jupyter Notebook файле /src/python/similar_query_generator.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Семестровый проект

Запуск LightGBM на готовом датасете.

Предобработка текстов.

Подсчёта синтаксических признаков.

Подсчёт семантических признаков.

Cоединения кликовых, синтаксические и семантические данных

Генерация похожих запросов

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data/images		data/images
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
guideline.pdf		guideline.pdf
presentatoin.pdf		presentatoin.pdf
script_1.sh		script_1.sh
script_2.sh		script_2.sh
script_3.sh		script_3.sh
script_4.sh		script_4.sh

License

lalkakonus/ir-hw4

Folders and files

Latest commit

History

Repository files navigation

Семестровый проект

Запуск LightGBM на готовом датасете.

Предобработка текстов.

Подсчёта синтаксических признаков.

Подсчёт семантических признаков.

Cоединения кликовых, синтаксические и семантические данных

Генерация похожих запросов

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages