GitHub - JuliaBars/fast_search_relevant_articles: Быстрый поиск релевантных запросу статей на датасете 52К

Система позволяет искать самые похожие на введённый пользователем запрос статьи.

Посмотреть как работает проект можно по ссылке

Особенности проекта:

Для быстрого поиска по эмбедингам использована библиотека FAISS, рассмотрена работа двух индексов, их можно попробовать через GUI:

Рассмотрена возможность использование большой языковой модели по API для переранжирования текстов по релевантности после поиска по векторным представлениям:

Использования внешнего API - дорого
Локально развернуть - невозможно из-за недостатка мощностей на бесплатном сервере Streamlit

Пример работы проекта:

Локально запустить проект можно:

docker build -t articles_search .
docker run --name articles  --rm -it -p 8501:8501 articles_search
http://localhost:8501/

python3 -m venv venv
. venv/bin/activate
pip install -r requirements.txt
streamlit run app.py
http://localhost:8501/

Очень краткая документации FAISS, много информации получено из исходного кода, wiki библиотеки и SO
Довольно медленная работа модели для эмбедингов без параллельности, проблему удалось решить, сохранив файл pkl с рассчитанными эмбедингами
На гит нельзя отправить файлы больше 100МB, пришлось разрезать файл c эмбедингами на части, а файл с исходных датасетом добавила в описание ссылкой
Проект задеплоен на бесплатных серверах Streamlit (к сожалению, иногда они отключаются)

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
.gitignore		.gitignore
Dockerfile		Dockerfile
LICENSE		LICENSE
README.md		README.md
app.py		app.py
config.py		config.py
requirements.txt		requirements.txt
result.txt		result.txt
settings.py		settings.py
utils.py		utils.py

Provide feedback