Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

Open
zmm opened this issue Oct 27, 2023 · 4 comments
Assignees

Comments

@zmm
Copy link
Contributor

zmm commented Oct 27, 2023

1 Добавить в классы модели данных поле, в котором будет хранится извлеченный текст разделов в приавязке к их названию и страницам (На которых раздел расположен)

2 Пофиксить парсинг (загрузку) документов, так чтобы поля выше заполнялись содержимым

@blindsphynx
Copy link
Collaborator

  1. Добавлен класс, который парсит файл (docx/pdf) так, что получается список разделов, для каждого из которых указаны header, start_page и text (соответственно заголовок, первая страница раздела и непосредственно текст)

469_extend_data_storage_model

  1. Загрузка / выгрузка в процессе, пока предварительно склоняюсь к сериализации данных и отправке в БД в бинарном виде, но это требует обсуждения

@blindsphynx
Copy link
Collaborator

f4efd8d

Исправлено:

  • вместо отдельного класса оставлены две функции, которые парсят разделы в соответствии со страницами и заголовками;
  • в класс Check добавлено поле parsed_chapters;
  • текст сохраняется в БД.

На данный момент остаётся ещё несколько багов (не всегда правильно парсятся страницы разделов и пр.), постепенно исправляю

@blindsphynx
Copy link
Collaborator

parse_file.py

Исправлены баги, страницы парсятся верно

@blindsphynx
Copy link
Collaborator

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants