Тессеракт - строки, включенные в ограничивающую рамку - PullRequest
0 голосов
/ 02 ноября 2018

Я использую API Tesseract 3.0.4 для обработки текста, содержащегося в сетке на изображении. Я использую OpenCV, чтобы удалить сетки перед вызовом Tesseract, чтобы помочь ему лучше читать текст. Если сетка сделана из сплошных линий, удаление сетки работает хорошо и Tesseract читает точно. Проблема возникает, когда линии сетки слабы и / или разорваны, поскольку их невозможно безопасно удалить без возможности повреждения самого текста. В этом случае, когда я использую Итератор страницы для проверки каждого слова на странице, ограничивающие рамки часто включают текст, но также и оставшиеся части сетки рядом.
Можно ли сказать Тессеракту игнорировать эти отрезки в ограничительной рамке? Строки намного тоньше текста и находятся на достаточном расстоянии от него.

...