Тессеракт дает неверные результаты при извлечении данных из таблицы - PullRequest
0 голосов
/ 27 мая 2018

Я хочу извлечь текст из таблицы, используя Tesseract.Текст извлечен хорошо, но я также получаю странный вывод, и я не знаю, откуда он.Странный вывод начинается с 9-го столбца и далее.Изображение имеет разрешение 300 точек на дюйм, как предложили разработчики Tesseract, и я использую оболочку для C # для Tesseract 3.04.Я также пытался удалить линии, но это не помогло.

Что я могу сделать, чтобы улучшить изображение, чтобы получить правильные результаты?Для справки вот изображение и выходные данные.

Исходное изображение: enter image description here

Вот часть вывода, которая показывает неправильные результаты: enter image description here

Спасибо за помощь

...