Каков наилучший способ извлечь текст из PDF, который структурирован с использованием заголовков многоуровневого списка? - PullRequest
0 голосов
/ 29 сентября 2019

У меня есть большой PDF-документ, который содержит сотни предложений, структурированных под нумерованными заголовками многоуровневого списка.

Вот одна страница из PDF .

Мне нужно извлечь весь текст, который находится непосредственно под каждым заголовком списка самого низкого уровня.

13.HEADING

13.1 Подзаголовок

13.1.1 Дочерний заголовок самого низкого уровня

Пример абзаца текста, который мне нужно извлечь (вместе с указанным выше заголовком) и выведите его в текстовый / CSV-файл, чтобы я мог добавить его в таблицу Excel.

Мне уже удалось преобразовать pdf-файл в текстовый файл, используя pdfminer * pdf2txt.py tool.

Чтобы установить pdfminer: python -m pip install pdfminer.six

Команда, которую я использовал для преобразования pdf в текст, была: pdf2txt.py -o output.txt -t text doc.pdf

Заголовки должны идти в столбец в Excel , с соответствующим абзацем текста, идущим в ячейке рядом с ними (в соседнем столбце).В ссылке на Excel заголовки идут в столбце C, а текст - в столбце D. Должен ли я использовать регулярные выражения или есть более простой или более эффективный метод?Просто ищу несколько указателей о том, как правильно извлечь эту информацию.Совет или код будет оценен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...