Можете ли вы использовать MODI OCR для распознавания неязыковых предметов? - PullRequest
0 голосов
/ 05 марта 2011

У меня есть документ OCR, работающий с изображением, отлично работает, когда на странице есть такие слова, как "coffee" или "432", но когда я пытаюсь распознать слово как "abc123", я получаю "OCR Ошибка выполнения ".

MODI.Document md = new MODI.Document();

md.Create("c:\\temp\\mpk.tiff");

md.OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true);  // <-- Error thrown here
MODI.Image image = (MODI.Image)md.Images[0]; 

FileStream createFile = new FileStream("c:\\temp\\mpk.txt", FileMode.CreateNew);

StreamWriter writeFile = new StreamWriter(createFile);
writeFile.Write(image.Layout.Text);
writeFile.Close();

md.Close();

Конечно, MS не создавала эту библиотеку для только распознавания языковых слов? Или они? Я пропускаю настройку MODI.document или что-то в этом роде?

Любая помощь будет оценена,

1 Ответ

2 голосов
/ 06 марта 2011

Да, они сделали.OCR становится действительно неточным без соответствующего словаря и фрагментов, которые не обеспечивают контекст.Как и люди: ABC123, ABCI23, ABCl23.Три разные строки.На практике это решается с помощью специальных шрифтов, которые сводят к минимуму вероятность того, что буквы и цифры будут неоднозначными, как вы видите на банковском чеке.

...