OCR и различение между 2 или 3 шрифтами - PullRequest
3 голосов
/ 30 июля 2011

Допустим, у меня есть черно-белое изображение документа с использованием только 2 или 3 шрифтов. Один из 3 используется для заголовка, а другой - маленький шрифт (или, по крайней мере, очень простой). Например, один из маленьких кусочков текста может быть:

Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.

Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.

Мне не нужна большая причудливая система распознавания, которая может сказать мне, что «Лучший суп» использует особый причудливый шрифт с курсивом и т. Д. Мне просто нужна система, которая может сказать мне, что «Лучший суп» отформатирован несколько иначе, чем «водопроводная вода», что «Лучший суп» и «Сэндвич», вероятно, используют одинаковое форматирование, а «Сэндвич» больше / интереснее, чем «тап». воды. "

Я буду использовать Tesseract для фактического распознавания текста и определения ограничивающего прямоугольника (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html), если это уместно.

Есть ли что-нибудь, что я могу использовать для этой простой классификации форматирования?

Edit:

Есть ли что-нибудь, что могло бы сделать это, не стоя мне руки и ноги?

1 Ответ

1 голос
/ 03 августа 2011

Я не уверен, сможет ли tesseract решить задачу, которую вы описываете, но я считаю, что хороший движок ocr должен определять стили шрифтов. Например, ABBYY OCR SDK может не только определять стиль шрифта, выделенного полужирным / курсивом, но и определять правильную грань шрифта для использования в выходных данных.

Исходя из того, что вы описываете, я полагаю, вы пытаетесь определить иерархию стилей документа, например уровни заголовка и т. Д. ABBYY FineReader Engine предоставляет эту функциональность, и вы не участвуете в процедуре назначения текста на основе размера шрифта и стиля. Кроме того, он обеспечивает наилучшее качество изображения и его можно попробовать бесплатно. Попробуйте это, если планируете коммерческое программное обеспечение. Я работаю @ ABBYY и могу предоставить вам дополнительную информацию в нашем OCR SDK, если это необходимо.

С уважением.

...