Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

zmm · 2023-10-27T12:09:13Z

1 Добавить в классы модели данных поле, в котором будет хранится извлеченный текст разделов в приавязке к их названию и страницам (На которых раздел расположен)

2 Пофиксить парсинг (загрузку) документов, так чтобы поля выше заполнялись содержимым

blindsphynx · 2023-11-24T08:11:01Z

Добавлен класс, который парсит файл (docx/pdf) так, что получается список разделов, для каждого из которых указаны header, start_page и text (соответственно заголовок, первая страница раздела и непосредственно текст)

469_extend_data_storage_model

Загрузка / выгрузка в процессе, пока предварительно склоняюсь к сериализации данных и отправке в БД в бинарном виде, но это требует обсуждения

blindsphynx · 2023-12-06T01:27:25Z

f4efd8d

Исправлено:

вместо отдельного класса оставлены две функции, которые парсят разделы в соответствии со страницами и заголовками;
в класс Check добавлено поле parsed_chapters;
текст сохраняется в БД.

На данный момент остаётся ещё несколько багов (не всегда правильно парсятся страницы разделов и пр.), постепенно исправляю

blindsphynx · 2023-12-07T01:10:06Z

parse_file.py

Исправлены баги, страницы парсятся верно

blindsphynx · 2024-02-16T10:09:01Z

Просмотр содержимого БД

zmm assigned blindsphynx Oct 27, 2023

blindsphynx mentioned this issue Feb 4, 2024

469 Дополнение модели данных для хранения распарсенного текста #496

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

zmm commented Oct 27, 2023

blindsphynx commented Nov 24, 2023

blindsphynx commented Dec 6, 2023

blindsphynx commented Dec 7, 2023

blindsphynx commented Feb 16, 2024

Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

Расширить модель данных хранеением распарсенного текста отчетов и презентаций #469

Comments

zmm commented Oct 27, 2023

blindsphynx commented Nov 24, 2023

blindsphynx commented Dec 6, 2023

blindsphynx commented Dec 7, 2023

blindsphynx commented Feb 16, 2024