Как использовать пользовательский язык обученных данных в процессе распознавания текста: Project Naptha Tesseract.js - PullRequest
0 голосов
/ 01 октября 2019

У меня есть веб-приложение http, работающее на веб-сервере Apache, которое в конечном итоге позволило бы пользователю обрабатывать OCR на изображении. Я использую Тессеракт Нафта . Я включил cdn tesseract.js следующим образом:

<script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.10/dist/tesseract.js'></script>

Следующий код javascript указывает на местоположение моего пользовательского языка обученных данных (cus.traineddata.gz):

window.Tesseract = Tesseract.create({
    langPath: 'https://mydomain.co.za/path/to/traineddata_language/',
});

Нет, я вызываю метод распознавания с этим кодом:

Tesseract.recognize(image, 'cus')
        .progress(function(result){
            console.log('Status: ' + result['status']);
        })
        .then(function(result){
            console.log(result.text);
        })
        .catch(function(err){
            console.error("ERROR: " + err);
        });

Но он не работает. Выдается следующая ошибка:

Не удалось загрузить язык 'cus' Tesseract не может загрузить ни один язык! Если это прерывание () неожиданно, создайте с -s ASSERTIONS = 1, что может дать больше информации. cached cus undefined

Мне нужна помощь здесь. Как бы я это исправить? Решение будет обрабатывать OCR на изображении, используя только мой специально обученный язык.

Спасибо.

...