Я работаю над тем, чтобы заставить шрифта Линкольна работать в Тессеракте, и я получаю ужасные результаты, даже после прохождения дико сложного учебного процесса .
Вот чтошрифт выглядит так, да, это немного сложно:
Я тщательно сделал тренировочное изображение, а затем использовал его для создания файла коробки. Тренировочный образ здесь (25MB!) .Изображение с разрешением 300 точек на дюйм и репрезентативными символами, красиво разнесенными по вертикали и горизонтали.
Я сделал коробочный файл для тренировочного образа, и он работал правильно.Я проверил, что это правильно, используя редактор файлов коробок .
Я взял этот файл коробок / tif и использовал его для создания обучающих данных.Я сделал то же самое с 30 или около того другими образцами изображений / шрифтами , предоставленными Tesseract.
Я создал файл unicharset.
Я создал файл font_properties.На сайте нет указаний о том, когда следует использовать фрактур.Итак, я попробовал это и так (фрактур для Линкольна):
eng.lincoln.box 0 0 0 0 1
И так (фрактур выключен):
eng.lincoln.box 0 0 0 0 0
И наконец, я попробовал этос и без словарных файлов.Когда я использовал файлы словарей, они представляли собой карту слов из моей поисковой системы Sphinx, и в них было около 15 000 общих слов и около 20 000 необычных.
Во всех случаях, когда я пытаюсь распознать первые пару строк этот файл (3МБ) , качество ужасное.Вместо того чтобы получать:
United States Court of Appeals
for the Federal Circuit
Я получаю:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
Почему?