Тессеракт OCR проблема с колоннами - PullRequest
0 голосов
/ 23 апреля 2020

Я пытаюсь распознать набор из 550 страниц печатного текста с помощью Tesseract, но есть несколько факторов, которые затрудняют это:

  • Каждая страница может иметь два столбца существенного текст вверху и три столбца текста сноски ниже этого
  • Могут быть страницы только с основным текстом (таким образом, два столбца), а на других страницах только текст сноски (три)
  • Страницы были опубликовано около 1917 года, поэтому качество текста может быть не очень хорошим
  • Страницы были первоначально отсканированы на предмет Google Книг. Google OCR имеет много проблем, поэтому я надеюсь, что более новые версии Tesseract (возможно, в сочетании с моей предварительной обработкой изображения) дают лучшие результаты
  • Столбцы разделены вертикальными черными линиями, которые не довольно далеко до верха верхней строки каждого столбца (может быть, это не имеет значения; я не знаю)
  • Сноски в основном тексте, так как они имеют меньший размер шрифта, сложнее распознавать

Вот несколько примеров страниц из набора, которые мне пришлось сжать и сохранить в формате JPEG, чтобы иметь возможность загрузить. (У меня есть файлы, которые я сохранил прямо из PDF-файла.) Example page Other Example pages Учитывая вышеперечисленные факторы, когда я запускал Tesseract на нескольких тестовых страницах, используя различные Настройки, он распознал некоторые столбцы, но прошел через другие, просто читая прямо в соседний столбец (столбцы).

Вот мои вопросы:

  • Какую предварительную обработку я могу сделать, чтобы улучшить распознавание столбцов?
  • Безнадежно ли предположить, что я могу добиться лучшего распознавания текста, чем Google, когда обрабатывал одни и те же страницы (5-10 лет go)?
  • Можно ли сказать, что Tesseract помечает надстрочные сноски как таковые (например, метатегом), чтобы я Можно ли go вернуться позже, чтобы связать каждый номер сноски с текстом сноски?
...