Question

Как изобразить:

Создание нового изображения с краской (любой размер)
Добавить букву А к этому изображению
Попробуйте распознать -> тессеракт не найдет букв
Скопируйте и вставьте это письмо 5-6 раз в это изображение
Попробуйте распознать -> тессеракт найдет все буквы

Почему?

Marco Bonifazi · Answer 1 · 03 декабря 2013

Вы должны установить «режим сегментации страницы» на «один символ».

Например, в Android вы делаете следующее:

api.setPageSegMode(TessBaseAPI.pageSegMode.PSM_SINGLE_CHAR);

rmtheis · Answer 2 · 05 июня 2012

Вам нужно установить режим сегментации страницы Тессеракта на «один символ».

TryTryAgain · Answer 3 · 10 марта 2012

Вы видели это?

https://code.google.com/p/tesseract-ocr/issues/detail?id=581

Список ошибок показывает, что «больше не проблема».

Обязательно используйте изображения с высоким разрешением.
Если вы изменяете размер изображения, обязательно сохраняйте высокое DPI и не изменяйте размер слишком маленьким
Обязательно обучите свою систему тессеракта
используйте код baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"); перед init Tesseract
Также вы можете посмотреть , какой шрифт использовать с OCR

Shahryar Saljoughi · Answer 4 · 12 октября 2018

Python-код для этой конфигурации выглядит так:

import pytesseract
import cv2
img = cv2.imread("path to some image")
pytesseract.image_to_string(img, config="-c tessedit"
                                             "_char_whitelist=abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
                                             " --psm 10"
                                             " -l osd"
                                             " "))

флаг --psm определяет режим сегментации страницы.

согласно документации по тессеракту, 10 означает:

Рассматривать изображение как один символ.

так, чтобы распознать один символ, вам просто нужно использовать: --psm 10 флаг.

Тессеракт не распознает отдельные символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Тессеракт не распознает отдельные символы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы