Tesseract 4 не читает арабские цифры точно, используя пользовательский файл обученных данных - PullRequest
1 голос
/ 25 сентября 2019

Текущее поведение: Я следовал вики и деталям, приведенным в вики / Учебном Тессеракте - 4.00.Не было ошибок при создании файла с обученными данными.

Я хотел создать свой собственный файл ara_custom.traineddata специально для чтения дат на арабском языке, поэтому в нем есть "٠١٢٣٤٥٦٧٨٩" (0-9 числовых символов на арабском языке) только с косой чертой "/".

Формат арабской даты: is/٠٩/٢٥ гггг / мм / дд

Итак, когда я читаю его на чистых изображениях, оно читается очень точно.Но если изображение немного размыто или дата плохо напечатана на документе, мой файл ara_custom.traineddata не может точно прочитать символы или возвращает «Пустая страница!».

Теперь, если я использую @ ahmed-teaФайл ara_number.traineddata, он правильно читает цифры.

Я мог бы легко использовать файл ara_number.traineddata @ ahmed-tea, но он не читает "/" косую черту, так как он специально создан для чиселиз-за чего мне пришлось создать свой собственный.

Мой файл ara.training_text: прикреплен как ara.training_text.txt (только для загрузки, я использую файл без расширения txt)

MyФайл ara.wordlist: прикреплен как ara.wordlist.txt (для загрузки только в другом случае я использую файл без расширения txt)

Текст в изображении: ٢٠٠٩/١١/١٢ Тессеракт читает: ٢٤٠٩/١١/١٢

Текст на изображении: ١٩٧٩/٠١/٢٨ Тессеракт читает: ١٦٩٧٦ // ٠١ // ٧٢٨

Текст на картинке: ٢٠١٥/١١ /10 Тессеракт читает: ٢٠١٥/١١/٧٢

Наблюдение: Я заметил, что у меня есть проблема в моем файле training_text.Я прикрепил файл выше.Пожалуйста, наведите меня на эту ошибку, поскольку я сам не смог найти никакого решения.

Ps Я также изучил эффект Галлюцинации, который описан в вики, и попытался реализовать его, как я понял, но не повезло.

...