Обычно программное обеспечение OCR выполняет только извлечение текста из изображений и преобразование его в некоторый текстовый формат. Это не делает урожай. Тем не менее, вы можете использовать технологии OCR для достижения вашей цели. Я бы порекомендовал следующее:
- OCR вся страница
- Получить координаты распознанного текста
- Примените свои магические правила к распознанному тексту, чтобы найти область для обрезки: например, все между предложениями "заполнено" и "ЗАЯВЛЕНИЕ".
- Вырежьте из этой области изображение и экспортируйте его туда, куда хотите.
Реальная проблема заключается в количестве текста, который вы хотели бы обработать. Вы должны быть очень осторожны при определении своих «умных правил», чтобы убедиться, что они не дают ложных срабатываний, и всегда отправлять подозрительные изображения в отдельную очередь, которую вы позже вручную рассмотрите и обновите свои правила.
В целом это может выглядеть так:
- Возьмите первые 10 изображений, определите правила обнаружения логотипа, протестируйте и посмотрите, все ли работает хорошо
- Затем запустите следующие 10, посмотрите, что было напечатано неправильно, что не было обработано, обновите правила, повторно обработайте эти 10, чтобы убедиться, что теперь все работает хорошо
- Повторно запускайте его на новых партиях того же размера, пока он не начнет работать хорошо.
- Затем увеличьте размер пакета с 10 до 100 и продолжайте с этими партиями, пока все снова не начнет работать гладко
- Тогда продолжайте в том же духе, совершенствуя свои правила и увеличивая размер партии. В какой-то момент вы перейдете на скорость производства.
Скорее всего, вы столкнетесь с какими-то странными изображениями, которые либо противоречат существующим правилам, либо просто ошибочны. Не всегда вы должны обновлять свои правила, чтобы приспособить его. Может случиться так, что там всего дюжина таких изображений во всей вашей 9-миллионной коллекции. Возможно, лучше оставить их в очереди исключений для ручной обработки и не рисковать стабильностью своих магических правил.