У меня есть большой PDF-документ, который содержит сотни предложений, структурированных под нумерованными заголовками многоуровневого списка.
Вот одна страница из PDF .
Мне нужно извлечь весь текст, который находится непосредственно под каждым заголовком списка самого низкого уровня.
13.HEADING
13.1 Подзаголовок
13.1.1 Дочерний заголовок самого низкого уровня
Пример абзаца текста, который мне нужно извлечь (вместе с указанным выше заголовком) и выведите его в текстовый / CSV-файл, чтобы я мог добавить его в таблицу Excel.
Мне уже удалось преобразовать pdf-файл в текстовый файл, используя pdfminer * pdf2txt.py tool.
Чтобы установить pdfminer: python -m pip install pdfminer.six
Команда, которую я использовал для преобразования pdf в текст, была: pdf2txt.py -o output.txt -t text doc.pdf
Заголовки должны идти в столбец в Excel , с соответствующим абзацем текста, идущим в ячейке рядом с ними (в соседнем столбце).В ссылке на Excel заголовки идут в столбце C, а текст - в столбце D. Должен ли я использовать регулярные выражения или есть более простой или более эффективный метод?Просто ищу несколько указателей о том, как правильно извлечь эту информацию.Совет или код будет оценен.