Я хочу извлечь текст из разделов PDF, а затем преобразовать его в данные табличного формата.Я могу извлечь весь текст PDF-файла с помощью PDFMiner, но мне нужно обнаружить разделы (и более поздние подразделы) PDF-файла, а затем получить весь текст, соответствующий этому разделу / подразделу.
Мне удалось извлечь название раздела со страницы индекса, но я знаю, что хочу текст, соответствующий этому разделу.
Я хочу что-то вроде этого
Как видите, я хочу сделать это для нескольких PDF-файлов, но на данный момент с одним все в порядке
Это код, который я использовал для извлечения названий разделов:
sections_prefixes = ['\nI.', '\nII.', '\nIII.', '\nIV.', '\nV.']
end_prefixes = '\n'
index = []
for prefix in sections_prefixes:
match = re.search(prefix + ' (.*){}'.format(end_prefixes), s)
index.append(match.group(1).replace(' ', ''))