Question

Я пытаюсь распознать набор из 550 страниц печатного текста с помощью Tesseract, но есть несколько факторов, которые затрудняют это:

Каждая страница может иметь два столбца существенного текст вверху и три столбца текста сноски ниже этого
Могут быть страницы только с основным текстом (таким образом, два столбца), а на других страницах только текст сноски (три)
Страницы были опубликовано около 1917 года, поэтому качество текста может быть не очень хорошим
Страницы были первоначально отсканированы на предмет Google Книг. Google OCR имеет много проблем, поэтому я надеюсь, что более новые версии Tesseract (возможно, в сочетании с моей предварительной обработкой изображения) дают лучшие результаты
Столбцы разделены вертикальными черными линиями, которые не довольно далеко до верха верхней строки каждого столбца (может быть, это не имеет значения; я не знаю)
Сноски в основном тексте, так как они имеют меньший размер шрифта, сложнее распознавать

Вот несколько примеров страниц из набора, которые мне пришлось сжать и сохранить в формате JPEG, чтобы иметь возможность загрузить. (У меня есть файлы, которые я сохранил прямо из PDF-файла.) Учитывая вышеперечисленные факторы, когда я запускал Tesseract на нескольких тестовых страницах, используя различные Настройки, он распознал некоторые столбцы, но прошел через другие, просто читая прямо в соседний столбец (столбцы).

Вот мои вопросы:

Какую предварительную обработку я могу сделать, чтобы улучшить распознавание столбцов?
Безнадежно ли предположить, что я могу добиться лучшего распознавания текста, чем Google, когда обрабатывал одни и те же страницы (5-10 лет go)?
Можно ли сказать, что Tesseract помечает надстрочные сноски как таковые (например, метатегом), чтобы я Можно ли go вернуться позже, чтобы связать каждый номер сноски с текстом сноски?

Тессеракт OCR проблема с колоннами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Тессеракт OCR проблема с колоннами

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы