Я пытаюсь создать сканер pdf для годовых отчетов корпораций - эти отчеты представляют собой документы pdf с большим количеством текста, а также большим количеством таблиц.
У меня нет проблем с преобразованием PDF в TXT, но моя реальная цель - найти определенные ключевые слова (например, ДОХОД, ПРИБЫЛЬ) и извлечь данные Доход 1.000.000.000 € в данные Рамка.
Я пробовал разные библиотеки, особенно tabula-py и PyPDF2, но не смог найти умного способа сделать это - может ли кто-нибудь помочь со стратегией, это было бы потрясающе!
Best С уважением, Робин