Как улучшить точность распознавания? - PullRequest
4 голосов
/ 21 февраля 2020

У меня есть 2 изображения, как показано ниже. A.png отлично читается тессерактом, но B.png ужасно плохая точность, хотя B.png похож на A.png. Как я могу улучшить точность? Понятия не имею, с чего начать отладку?

  • A.png

enter image description here

  • B. png

enter image description here

  • Запуск распознавания текста
# tesseract -v
tesseract 4.1.1-rc2-22-g08899
# tesseract A.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
第 3 期 決算 公告 令 和 2 年 2 月 7 日
大 阪 市 中 央 区 南 新町 一 丁目 3 番 10 号
株 式 会 社 Link_Mobile

代表 取締 役 佐々 木 勉

貸借 対照 表 の 要旨 (平成 31 年 3 月 31 日 現在 }
# tesseract B.png stdout -l jpn --psm 6
Warning: Invalid resolution 0 dpi. Using 70 instead.
。 人 加計
区 三 6 番 12 号
中 野 駅 前 ビル 5 | 、
am 人 mw
に て
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 }

Обновление 1

Сканировались ли оба с использованием одного и того же сканера и с одинаковым разрешением?

Да. Изображения, которые изначально были включены в тот же PDF-файл, были вырезаны.

Используете ли вы какие-либо API-интерфейсы, которые Tesseract предоставляет для предварительной обработки изображений перед выполнением OCR?

Нет. Я не знал этого. Я сейчас проверяю это.

1 Ответ

2 голосов
/ 21 февраля 2020

улучшилось. Я прочитал « Документация Tesseract » и изменил масштаб изображения.

Изменение масштаба Tesseract лучше всего работает с изображениями, которые имеют DPI не менее 300 точек на дюйм, поэтому может быть полезно изменить размер изображений , Для получения дополнительной информации см. FAQ.

  • Масштабированное изображение

enter image description here

  • Запустить OCR
# tesseract B2.png stdout -l jpn --psm 6
第 54 期 決 算 公 告 _ 令 和 2 年 1 月 29 日
東京 都 中 野 区 中 野 三 丁目 36 番 12 号
中 野 駅 前 ビル 5 F
株 式 会 社 コ ー エ ー テ クニ カ
代表 取締 役 小 空 _ 修
貸借 対照 表 の 要旨 ( 令 和 元 年 11 月 30 日 現在 )
...