Question

Я использую сообщество Alfresco 6.1.

У меня есть тысячи счетов для сканирования, распознавания их (почти 100% распознавание) и получения необходимых метаданных (Партнер, Номер счета, Сумма, Единицы, Валюта ,...). (Все это на свежем воздухе)

На основании полученных метаданных мне нужно выполнить некоторые операции с накладными (переместить их в соответствующие папки, применить некоторые рабочие процессы ...).

В качестве первого подхода:

Для распознавания текста я использовал Простое действие распознавания Alfresco , но результат не очень точный (далеко не 100%).
Для получения результатов я преобразовываю PDF OCRed в простой текстовый файл, а затем я ищу его содержимое, используя javascript с document.content ... Но так как OCR не является точным, я могу 'не могу сказать, является ли это лучшим решением для поиска внутри документа.

Итак, мои вопросы:

Как я могу сделать результаты распознавания большеТочно?
Как получить импортданные из счета?метод, который я использую, достаточно хороший или очень плохой для такой обработки?

Я использую pdfsandwich, а мои alfresco-global.properties :

ocr.command=/usr/bin/pdfsandwich
ocr.output.verbose=true
ocr.output.file.prefix.command=-o

ocr.extra.commands=-verbose -lang eng
ocr.server.os=linux

Heiko Robert · Answer 1 · 26 сентября 2019

Боюсь, что этот вопрос не по теме: https://stackoverflow.com/help/on-topic

В любом случае, некоторые данные:

Я настоятельно рекомендую сделать все ocr / классификация / извлечение вне / дохранение PDF-файлов в Alfresco
Технический термин для того, что вы ищете: Захват документов Если вы действительно рассчитываете классифицировать отсканированные документы и извлекать данные для входящих документов (которыми вы не можете управлять вструктура) решения довольно дорогие и лицензируются на страницах / период.Лидерами рынка в этой области являются Kofax и Abbyy.
Если вы можете контролировать структуру документа / если структура документа фиксированная, вы можете использовать более дешевые решения, использующие что-то вроде динамического шаблонного подхода (в зависимости от найденногоancor points, штрих-коды, регулярные выражения).Для этого мы используем PDFmdx для автоматизации квалифицированного извлечения.
Все зависит от качества распознавания.Мое личное мнение: компоненты ocr бесплатного / открытого исходного кода не могут конкурировать с коммерческими решениями, если у вас нет времени, опыта и ресурсов для их обучения и оптимизации.У Abbyy есть довольно доступное CLI-решение для linux (ABBYY FineReader Engine CLI для Linux), но я уверен, что есть и другие с похожими результатами.
Существует довольно хорошее и простое решение, которое называется AutoOCR * 1016.* которая является REST- / SOAP-службой, предоставляющей универсальный настраиваемый интерфейс для использования нескольких ядер и конфигураций ocr в качестве службы.Мы внедрили интеграцию Alfresco, чтобы действовать в качестве Alfresco Transformer, но поскольку среда Alfresco Transformer устарела, я бы рекомендовал выполнить весь процесс распознавания и распознавания до хранения документов в Alfresco
Наконец: если это однократный подход: попробуйте найти поставщика услуг, выполняющего хотя бы ocr и, возможно, также классификацию / извлечение.

OCR отсканированный файл и получить метаданные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

OCR отсканированный файл и получить метаданные

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы