Я пытаюсь распознать набор из 550 страниц печатного текста с помощью Tesseract, но есть несколько факторов, которые затрудняют это:
- Каждая страница может иметь два столбца существенного текст вверху и три столбца текста сноски ниже этого
- Могут быть страницы только с основным текстом (таким образом, два столбца), а на других страницах только текст сноски (три)
- Страницы были опубликовано около 1917 года, поэтому качество текста может быть не очень хорошим
- Страницы были первоначально отсканированы на предмет Google Книг. Google OCR имеет много проблем, поэтому я надеюсь, что более новые версии Tesseract (возможно, в сочетании с моей предварительной обработкой изображения) дают лучшие результаты
- Столбцы разделены вертикальными черными линиями, которые не довольно далеко до верха верхней строки каждого столбца (может быть, это не имеет значения; я не знаю)
- Сноски в основном тексте, так как они имеют меньший размер шрифта, сложнее распознавать
Вот несколько примеров страниц из набора, которые мне пришлось сжать и сохранить в формате JPEG, чтобы иметь возможность загрузить. (У меня есть файлы, которые я сохранил прямо из PDF-файла.) Учитывая вышеперечисленные факторы, когда я запускал Tesseract на нескольких тестовых страницах, используя различные Настройки, он распознал некоторые столбцы, но прошел через другие, просто читая прямо в соседний столбец (столбцы).
Вот мои вопросы:
- Какую предварительную обработку я могу сделать, чтобы улучшить распознавание столбцов?
- Безнадежно ли предположить, что я могу добиться лучшего распознавания текста, чем Google, когда обрабатывал одни и те же страницы (5-10 лет go)?
- Можно ли сказать, что Tesseract помечает надстрочные сноски как таковые (например, метатегом), чтобы я Можно ли go вернуться позже, чтобы связать каждый номер сноски с текстом сноски?