Допустим, у меня есть черно-белое изображение документа с использованием только 2 или 3 шрифтов. Один из 3 используется для заголовка, а другой - маленький шрифт (или, по крайней мере, очень простой). Например, один из маленьких кусочков текста может быть:
Fancy/Bolded/Italicized/Script font: The Best Soup In The World
Plain/small: Made with tap water, salt, and sugar.
Fancy/Bolded/Italicized/Script font: The Best Soup and 1/2 Sandwich In The World
Plain/small: Made with flour, tap water, salt, and sugar.
Мне не нужна большая причудливая система распознавания, которая может сказать мне, что «Лучший суп» использует особый причудливый шрифт с курсивом и т. Д. Мне просто нужна система, которая может сказать мне, что «Лучший суп» отформатирован несколько иначе, чем «водопроводная вода», что «Лучший суп» и «Сэндвич», вероятно, используют одинаковое форматирование, а «Сэндвич» больше / интереснее, чем «тап». воды. "
Я буду использовать Tesseract для фактического распознавания текста и определения ограничивающего прямоугольника (http://www.mail-archive.com/tesseract-ocr@googlegroups.com/msg02157.html), если это уместно.
Есть ли что-нибудь, что я могу использовать для этой простой классификации форматирования?
Edit:
Есть ли что-нибудь, что могло бы сделать это, не стоя мне руки и ноги?