Я исследую проект для своего работодателя:
Используя OCR, я могу извлекать данные из PDF-файлов и получать текстовые объекты.Мы используем Aspose.PDF, но я также изучал варианты, такие как IronOCR.
Подвох в том, что я пытаюсь извлечь данные из документов по категориям.
Скажем, у меня есть стопка документов.... которые сканируются ... как я могу извлечь номера счетов и имена из разных документов?
Получение текста кажется легким ... точный поиск, скажем, имен и / или номеров счетов вданные, где я, кажется, застрял в настоящее время.