Извлечение текста PDF из конкретного раздела / с - PullRequest
0 голосов
/ 29 марта 2019

Я хочу извлечь текст из разделов PDF, а затем преобразовать его в данные табличного формата.Я могу извлечь весь текст PDF-файла с помощью PDFMiner, но мне нужно обнаружить разделы (и более поздние подразделы) PDF-файла, а затем получить весь текст, соответствующий этому разделу / подразделу.

Мне удалось извлечь название раздела со страницы индекса, но я знаю, что хочу текст, соответствующий этому разделу.

Я хочу что-то вроде этого Desired Output

Как видите, я хочу сделать это для нескольких PDF-файлов, но на данный момент с одним все в порядке

Это код, который я использовал для извлечения названий разделов:

sections_prefixes = ['\nI.', '\nII.', '\nIII.', '\nIV.', '\nV.']
end_prefixes = '\n'

index = []

for prefix in sections_prefixes:
    match = re.search(prefix + ' (.*){}'.format(end_prefixes), s)
    index.append(match.group(1).replace(' ', ''))
...