Как извлечь дату из нескольких квитанций транзакций в Python без шаблона - PullRequest
0 голосов
/ 11 июня 2019

У меня есть несколько квитанций о транзакциях, и я пытаюсь извлечь сумму счета из каждой из этих квитанций. Проблема в том, что используемый мной ocr не может получить определенные суммы из документа. Я использовал подушку и pytesseract и pdf2image для преобразования документов pdf в изображения, а затем использовал ocr для извлечения данных из этих изображений. Затем я преобразую текст в ocr html файлы для извлечения данных с использованием ключевых слов и местоположений. Тем не менее, определенная информация не была извлечена из pdf. Пожалуйста, помогите мне решить эту проблему.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...