какой алгоритм распознавания использует Microsoft Office Document Imaging? Могу ли я использовать его без установки офиса 2003? - PullRequest
3 голосов
/ 28 апреля 2011

Относительно этого вопроса , я нашел программу, JOCR , которая дает хорошие результаты. Оказывается, он просто использует визуализацию документов Microsoft Office для распознавания текста с помощью COM. Это работает для меня - я могу потратить некоторое время, пытаясь заставить его работать на Python (где мне это нужно).

Мои вопросы: какой алгоритм OCR они используют? Возможно ли получить его (или что-то подобное - тессеракт и ocropus, кажется, работают только с отсканированными изображениями или изображениями, но MODI OCR отлично работает с экранным текстом) в другом месте? Возможно ли установить его на компьютер без установки всего Office 2003?

...