Для работы по контракту мне нужно оцифровать много старых PDF-файлов протоколов дебатов с использованием отсканированной графики только из Федерального парламента Германии.
Проблема в том, что большинство этих файлов имеют формат в два столбца:
Пример протокола http://sert.homedns.org/img/btp12001.png
Я хотел бы прочитать ваш ответ на мои следующие вопросы:
- Как я могу разделить два столбца перед подачей их в OCR?
- Какое коммерческое программное обеспечение или среду OCR с открытым исходным кодом вы рекомендуете и почему?
Обратите внимание, что с любым инструментом, языком программирования, фреймворком и т. Д. Все в порядке. Не стесняйтесь рекомендовать эзотерические продукты, библиотеки, если вы думаете, что они предназначены для jub ^ __ ^ !!
ОБНОВЛЕНИЕ: Эти документы уже отсканированы парламентом o_O: образец (так же, как на изображении выше), и их много, и я хочу доставить их по контракту как можно скорее поэтому я не могу принести копии тех же документов, вырезать и отсканировать их сам. Их слишком много.
С наилучшими пожеланиями,
Цетин Серт