У меня есть несколько квитанций о транзакциях, и я пытаюсь извлечь сумму счета из каждой из этих квитанций. Проблема в том, что используемый мной ocr
не может получить определенные суммы из документа. Я использовал подушку и pytesseract
и pdf2image
для преобразования документов pdf
в изображения, а затем использовал ocr
для извлечения данных из этих изображений. Затем я преобразую текст в ocr
html
файлы для извлечения данных с использованием ключевых слов и местоположений. Тем не менее, определенная информация не была извлечена из pdf
. Пожалуйста, помогите мне решить эту проблему.