Извлечение текста заметок из PDF-файлов в Python - PullRequest
0 голосов
/ 02 июня 2019

У меня есть тонны PDF-файлов, и у каждого есть заметка с номером (и может иметь более 1, но мне важен только 1-й (тот, что вверху)).

Вместопросматривая эти файлы один за другим, я хочу извлечь текст из каждого из этих PDF-файлов и записать его в Excel, где первый столбец будет именем файла, а второй - текстом из заметки.

Мне не удается найти какой-либо способ сделать это, я был бы рад услышать любые идеи.

Я попытался найти проблему в Google и нашел PyPDF2, но не могу справитьсячтобы использовать его для этой цели, кажется, он не поддерживает заметки.

Не нашел ничего более перспективного.

Вот пример для такого PDF: https://drive.google.com/open?id=1IYecrqlz_Q6D4Z0_3Rg2UKmr_LwsxWfn

Вы можете видеть, что у него есть 3 заметки, только 1 страница (на самом деле это не имеет значения, потому что я предполагаю, что все PDF-файлы имеют верхнюю заметку на 1-й странице, поэтому я могу просто игнорировать другие страницы) иверхний имеет номер, который я шмуравья, чтобы извлечь.Это также самая верхняя заметка в списке, когда вы нажимаете «Комментарий» справа с помощью Adobe Acrobat (которую я использовал для размещения там заметок).

Так что для приведенного выше примера я хочу создатьExcel с 1 строкой, у которой «пример» в первом столбце и «95» во втором.

РЕДАКТИРОВАТЬ:

Нашел это, что выглядит многообещающе и делает именно то, что я хочу, но кажется, чтобыть для другой версии Python и не работает на Pycharm (вероятно, из-за версии Python).

Извлечение PDF аннотации / комментарии

...