Документ OCR и данные извлечения - PullRequest
0 голосов
/ 06 февраля 2019

Я исследую проект для своего работодателя:

Используя OCR, я могу извлекать данные из PDF-файлов и получать текстовые объекты.Мы используем Aspose.PDF, но я также изучал варианты, такие как IronOCR.

Подвох в том, что я пытаюсь извлечь данные из документов по категориям.

Скажем, у меня есть стопка документов.... которые сканируются ... как я могу извлечь номера счетов и имена из разных документов?

Получение текста кажется легким ... точный поиск, скажем, имен и / или номеров счетов вданные, где я, кажется, застрял в настоящее время.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...