оптическое распознавание символов PDF-файлов парламентских дебатов - PullRequest
0 голосов
/ 09 июля 2009

Для работы по контракту мне нужно оцифровать много старых PDF-файлов протоколов дебатов с использованием отсканированной графики только из Федерального парламента Германии.

Проблема в том, что большинство этих файлов имеют формат в два столбца:

Пример протокола http://sert.homedns.org/img/btp12001.png

Я хотел бы прочитать ваш ответ на мои следующие вопросы:

  1. Как я могу разделить два столбца перед подачей их в OCR?
  2. Какое коммерческое программное обеспечение или среду OCR с открытым исходным кодом вы рекомендуете и почему?

Обратите внимание, что с любым инструментом, языком программирования, фреймворком и т. Д. Все в порядке. Не стесняйтесь рекомендовать эзотерические продукты, библиотеки, если вы думаете, что они предназначены для jub ^ __ ^ !!

ОБНОВЛЕНИЕ: Эти документы уже отсканированы парламентом o_O: образец (так же, как на изображении выше), и их много, и я хочу доставить их по контракту как можно скорее поэтому я не могу принести копии тех же документов, вырезать и отсканировать их сам. Их слишком много.

С наилучшими пожеланиями,
Цетин Серт

Ответы [ 4 ]

0 голосов
/ 09 ноября 2010

Взгляните на http://www.wisetrend.com/wisetrend_ocr_cloud.shtml (онлайн, REST API для распознавания текста). Он основан на мощном движке ABBYY OCR. Вы можете получить бесплатную учетную запись и попробовать ее с несколькими изображениями, чтобы увидеть, поддерживает ли она формат с двумя столбцами (он должен быть в состоянии это сделать). Кроме того, есть несколько настроек, с которыми вы можете поиграть (см. Документацию API) - вам, возможно, придется настроить некоторые из них, прежде чем они будут работать с 2 столбцами. Наконец, в качестве решения последней инстанции, если разделение на 2 столбца всегда находится в одном и том же месте, вы можете сначала создать программу, которая разделяет входное изображение на два изображения (не должно быть очень сложно написать это с использованием некоторого стандартного изображения). библиотеки обработки), а затем передайте полученные изображения в процесс распознавания.

0 голосов
/ 09 июля 2009

Это зависит от того, какое программное обеспечение OCR вы используете. Несколько лет назад я немного поработал с OCR API, я не могу вспомнить название, но думаю, что есть много альтернатив. В любом случае, этот API позволял мне определять регионы на странице для OCR. Если вы всегда точно знаете, где находятся столбцы, вы можете использовать SDK для отображения частей страницы.

0 голосов
/ 09 июля 2009

Я использую Omnipage 17 для таких вещей. Он также имеет пакетный режим, где вы можете поместить документы в папку, где они были извлечены, и поместить результат в другую. Он автоматически распознает макет, включает столбцы, или вы можете установить макет по умолчанию для столбцов. Вы можете установить множество параметров, как будет выглядеть вывод. Но попробуйте демо, если все идет правильно. В настоящее время у меня есть проблемы с лигатурами в некоторых моих документах. Таким образом, такие слова, как «fliegen», выходят как «fl iegen», поэтому вы должны произносить их по буквам.

0 голосов
/ 09 июля 2009

Перед сканированием отрежьте страницы посередине.

...