OCR с интерфейсом Тессеракта - PullRequest
30 голосов
/ 27 августа 2008

Как вы распечатываете TIFF-файл, используя интерфейс Tesseract в c #?
В настоящее время я знаю, как это сделать только с помощью исполняемого файла.

Ответы [ 5 ]

40 голосов
/ 24 сентября 2008

Взгляните на Тесснет

10 голосов
/ 27 августа 2008

Исходный код, похоже, предназначен для исполняемого файла, вам может понадобиться немного переписать файлы, чтобы он вместо этого создавался как DLL. У меня нет большого опыта работы с Visual C ++, но я думаю, что это не должно быть слишком сложно с некоторыми исследованиями. Я предполагаю, что кто-то, возможно, уже сделал библиотечную версию, вы должны попробовать Google.

Когда у вас есть код tesseract-ocr в DLL-файле, вы можете импортировать этот файл в ваш проект C # через Visual Studio, чтобы он создавал классы-обертки и выполнял для вас все функции маршалинга. Если вы не можете импортировать, то DllImport позволит вам вызывать функции в DLL из кода C #.

Затем вы можете взглянуть на оригинальный исполняемый файл, чтобы найти подсказки о том, какие функции вызывать для правильного распознавания текста.

7 голосов
/ 10 июня 2013

C # программа запускает tesseract.exe, а затем считывает выходной файл tesseract.exe.

Process process = Process.Start("tesseract.exe", "out");
process.WaitForExit();
if (process.ExitCode == 0)
{
    string content = File.ReadAllText("out.txt");
}
6 голосов
/ 06 августа 2013

Сегодня я обнаружил, что EMGU теперь включает оболочку Тессеракта. Хотя количество неуправляемых библиотек библиотеки opencv может показаться немного пугающим, быстрое копирование в выходной каталог не излечит вас. Оттуда фактический процесс OCR так же прост, как три строки:

Tesseract ocr = new Tesseract(Path.Combine(Environment.CurrentDirectory, "tessdata"), "eng", Tesseract.OcrEngineMode.OEM_TESSERACT_ONLY);
this.ocr.Recognize(clip);
optOCR.Text = this.ocr.GetText();

"robomatics" соединили очень хорошее видео на YouTube , которое демонстрирует простое, но эффективное решение.

0 голосов
/ 29 мая 2009

Отказ от ответственности: я работаю на Atalasoft

Наш модуль OCR поддерживает Tesseract , и если это окажется недостаточно хорошим, вы можете перейти на более качественный движок и просто изменить одну строку кода (мы предоставляем общий интерфейс для нескольких механизмов OCR).

...