Как извлечь вертикальную метку и значение из отсканированных документов? - PullRequest
0 голосов
/ 17 января 2020

Я делаю анализатор документов, который извлекает поля данных из документов и сохраняет их структурированным способом. Каждое поле в моем наборе данных является горизонтальным, что легко извлечь.

enter image description here

Но модель не работает на вертикальных полях, например, я хочу извлечь номер счета и дата на таких изображениях, которые невозможны для любого типа предварительно обученного распознавания текста -

enter image description here

Ответы [ 2 ]

0 голосов
/ 27 января 2020

Похоже, вы могли бы подумать об использовании такой службы, как Amazon textract , если то, что вы в данный момент используете, не работает. Я проверил это в небольших примерах, и, похоже, он хорошо работает с извлечением текста из документов.

0 голосов
/ 24 января 2020

Конвертировать png в pdf, а затем использовать pdf2txt.py -V

...