Сила словаря в тессеракте 3 - PullRequest
9 голосов
/ 20 января 2012

Как мне увеличить / уменьшить силу словаря в tesseract 3?

В FAQ говорится, что мне нужно изменить значение "NON_WERD" и "GARBAGE_STRING", но они не существуют в Tesseract 3.

Ответы [ 2 ]

4 голосов
/ 26 ноября 2012

Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, вы меняете эти переменные:

enable_new_segsearch    1
language_model_penalty_non_freq_dict_word 0.2
language_model_penalty_non_dict_word 0.3

Увеличьте их значения, чтобы сделать Тессеракт более пристрастным к словарным словам.

Примечание: Вы должны установить enable_new_segsearch, иначе они не будут иметь эффекта .

1 голос
/ 05 июля 2013

Чтобы полностью развить способности тессеракта к знанию языка, запустите каждую из них:

tess.setTessVariable("load_system_dawg", "false");
tess.setTessVariable("load_freq_dawg", "false");
tess.setTessVariable("load_punc_dawg", "false");
tess.setTessVariable("load_number_dawg", "false");
tess.setTessVariable("load_unambig_dawg", "false");
tess.setTessVariable("load_bigram_dawg", "false");
tess.setTessVariable("load_fixed_length_dawgs", "false");

Или, для лучшего контроля, только некоторые из них.(Я не знаю места, которое хорошо объясняет, что они все делают, но названия довольно объяснительны) Это код из моего текущего проекта, использующего Tess4J, но вы можете легко перевести их на c ++ или файл конфигурации или что-то ещенеобходимость.

...