Я использую сообщество Alfresco 6.1.
У меня есть тысячи счетов для сканирования, распознавания их (почти 100% распознавание) и получения необходимых метаданных (Партнер, Номер счета, Сумма, Единицы, Валюта ,...). (Все это на свежем воздухе)
На основании полученных метаданных мне нужно выполнить некоторые операции с накладными (переместить их в соответствующие папки, применить некоторые рабочие процессы ...).
В качестве первого подхода:
Для распознавания текста я использовал Простое действие распознавания Alfresco , но результат не очень точный (далеко не 100%).
Для получения результатов я преобразовываю PDF OCRed в простой текстовый файл, а затем я ищу его содержимое, используя javascript с document.content ... Но так как OCR не является точным, я могу 'не могу сказать, является ли это лучшим решением для поиска внутри документа.
Итак, мои вопросы:
Как я могу сделать результаты распознавания большеТочно?
Как получить импортданные из счета?метод, который я использую, достаточно хороший или очень плохой для такой обработки?
Я использую pdfsandwich, а мои alfresco-global.properties :
ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux