Question

Для работы по контракту мне нужно оцифровать много старых PDF-файлов протоколов дебатов с использованием отсканированной графики только из Федерального парламента Германии.

Проблема в том, что большинство этих файлов имеют формат в два столбца:

Пример протокола http://sert.homedns.org/img/btp12001.png

Я хотел бы прочитать ваш ответ на мои следующие вопросы:

Как я могу разделить два столбца перед подачей их в OCR?
Какое коммерческое программное обеспечение или среду OCR с открытым исходным кодом вы рекомендуете и почему?

Обратите внимание, что с любым инструментом, языком программирования, фреймворком и т. Д. Все в порядке. Не стесняйтесь рекомендовать эзотерические продукты, библиотеки, если вы думаете, что они предназначены для jub ^ __ ^ !!

ОБНОВЛЕНИЕ: Эти документы уже отсканированы парламентом o_O: образец (так же, как на изображении выше), и их много, и я хочу доставить их по контракту как можно скорее поэтому я не могу принести копии тех же документов, вырезать и отсканировать их сам. Их слишком много.

С наилучшими пожеланиями,
Цетин Серт

Eugene Osovetsky · Answer 1 · 09 ноября 2010

Взгляните на http://www.wisetrend.com/wisetrend_ocr_cloud.shtml (онлайн, REST API для распознавания текста). Он основан на мощном движке ABBYY OCR. Вы можете получить бесплатную учетную запись и попробовать ее с несколькими изображениями, чтобы увидеть, поддерживает ли она формат с двумя столбцами (он должен быть в состоянии это сделать). Кроме того, есть несколько настроек, с которыми вы можете поиграть (см. Документацию API) - вам, возможно, придется настроить некоторые из них, прежде чем они будут работать с 2 столбцами. Наконец, в качестве решения последней инстанции, если разделение на 2 столбца всегда находится в одном и том же месте, вы можете сначала создать программу, которая разделяет входное изображение на два изображения (не должно быть очень сложно написать это с использованием некоторого стандартного изображения). библиотеки обработки), а затем передайте полученные изображения в процесс распознавания.

Gavin · Answer 2 · 09 июля 2009

Это зависит от того, какое программное обеспечение OCR вы используете. Несколько лет назад я немного поработал с OCR API, я не могу вспомнить название, но думаю, что есть много альтернатив. В любом случае, этот API позволял мне определять регионы на странице для OCR. Если вы всегда точно знаете, где находятся столбцы, вы можете использовать SDK для отображения частей страницы.

ingo.thierack · Answer 3 · 09 июля 2009

Я использую Omnipage 17 для таких вещей. Он также имеет пакетный режим, где вы можете поместить документы в папку, где они были извлечены, и поместить результат в другую. Он автоматически распознает макет, включает столбцы, или вы можете установить макет по умолчанию для столбцов. Вы можете установить множество параметров, как будет выглядеть вывод. Но попробуйте демо, если все идет правильно. В настоящее время у меня есть проблемы с лигатурами в некоторых моих документах. Таким образом, такие слова, как «fliegen», выходят как «fl iegen», поэтому вы должны произносить их по буквам.

mcandre · Answer 4 · 09 июля 2009

Перед сканированием отрежьте страницы посередине.

оптическое распознавание символов PDF-файлов парламентских дебатов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

оптическое распознавание символов PDF-файлов парламентских дебатов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы