OCR отсканированный файл и получить метаданные - PullRequest
0 голосов
/ 26 сентября 2019

Я использую сообщество Alfresco 6.1.

У меня есть тысячи счетов для сканирования, распознавания их (почти 100% распознавание) и получения необходимых метаданных (Партнер, Номер счета, Сумма, Единицы, Валюта ,...). (Все это на свежем воздухе)

На основании полученных метаданных мне нужно выполнить некоторые операции с накладными (переместить их в соответствующие папки, применить некоторые рабочие процессы ...).

В качестве первого подхода:

  • Для распознавания текста я использовал Простое действие распознавания Alfresco , но результат не очень точный (далеко не 100%).

  • Для получения результатов я преобразовываю PDF OCRed в простой текстовый файл, а затем я ищу его содержимое, используя javascript с document.content ... Но так как OCR не является точным, я могу 'не могу сказать, является ли это лучшим решением для поиска внутри документа.

Итак, мои вопросы:

  • Как я могу сделать результаты распознавания большеТочно?

  • Как получить импортданные из счета?метод, который я использую, достаточно хороший или очень плохой для такой обработки?

Я использую pdfsandwich, а мои alfresco-global.properties :

ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux

1 Ответ

2 голосов
/ 26 сентября 2019

Боюсь, что этот вопрос не по теме: https://stackoverflow.com/help/on-topic

В любом случае, некоторые данные:

...