PDF Crawler с навыками глубокой аналитики - PullRequest
0 голосов
/ 19 июня 2020

Я пытаюсь создать сканер pdf для годовых отчетов корпораций - эти отчеты представляют собой документы pdf с большим количеством текста, а также большим количеством таблиц.

У меня нет проблем с преобразованием PDF в TXT, но моя реальная цель - найти определенные ключевые слова (например, ДОХОД, ПРИБЫЛЬ) и извлечь данные Доход 1.000.000.000 € в данные Рамка.

Я пробовал разные библиотеки, особенно tabula-py и PyPDF2, но не смог найти умного способа сделать это - может ли кто-нибудь помочь со стратегией, это было бы потрясающе!

Best С уважением, Робин

1 Ответ

0 голосов
/ 19 июня 2020

Извлечение данных из PDF-файлов - дело непростое. Хотя существуют стандарты PDF , не все PDF-файлы одинаковы. Если вы уже можете извлечь нужные данные в текстовой форме, вы можете использовать RegEx для извлечения требуемых данных.

У Amazon есть инструмент машинного обучения под названием Textract которые вы можете использовать вместе с их boto3 SDK в Python. Однако это платная услуга. Основное отличие использования Textract от регулярных выражений заключается в том, что Textract может распознавать и форматировать пары данных и таблицы, что должно означать, что создание вашего «краулера» будет более быстрым и менее подверженным поломкам, если ваши PDF-файлы изменятся в будущем. - это пакет Python с именем Textract , но он не совпадает с пакетом AWS, скорее, это оболочка, которая (для PDF-файлов) использует pdftotext (по умолчанию) или pdfminer.six . Стоит проверить, так как он может предоставить ваши данные в лучшем формате.

...