Не удается распознать отсканированную страницу в формате PDF с греческими словами, используя PB, EZTWAIN и TOCR 3.0 - PullRequest
1 голос
/ 08 апреля 2010

Iam, используя PB 10.5.2 и EZTwain 3.30.0.28, XDefs 1.36b1 от Dosadi для сканирования.

Также Iam, используя TOCR 3.0 для управления распознаванием.

В функции, которую мы используемследующие среди всех остальных:

...

Long ll_acquire

(as_path_filename is a function argument)

...

...

TWAIN_SetAutoOCR(1)

ll_acquire = TWAIN_AcquireMultipageFile(0, as_path_filename) 

проблема в том, что на отсканированной странице PDF есть латинские (английские) и греческие слова.Английские символы ищутся довольно точно, а греческие - совсем нет.

Как вы думаете, это связано с программным обеспечением TOCR.Я просто хочу найти И для греческих слов

Заранее спасибо

Ответы [ 2 ]

1 голос
/ 26 апреля 2010

По данным сайта TOCR признает английский, французский, итальянский, немецкий, голландский, шведский, финский, норвежский, датский, испанский и португальский языки.Вам понадобится программное обеспечение, которое может обрабатывать смешанный текст на греческом и английском языках.ABBYY FineReader Professional поддерживает английский и греческий языки, а также десятки других.

1 голос
/ 23 апреля 2010

Программное обеспечение OCR должно быть там, где оно не может преобразовать греческие слова в текст OCR.Похоже, вы используете EZTwain для части OCR, которая использует TOCR для своего фактического механизма OCR.Возможно, вы захотите взглянуть на документы для этого программного обеспечения и посмотреть, упоминают ли они какие-либо параметры, которые можно изменить для многоязычного использования.

...