Я использую тессеракт для распознавания текста, в основном на счетах.Однако tesseract требует указать язык перед началом обработки файла.
Я думал, что собираюсь выполнить ocr на основе предопределенного языка по умолчанию.Затем я хотел бы использовать полученный текст, чтобы проверить, какой язык используется.Если это не язык по умолчанию, я обрабатываю его снова, чтобы получить лучший результат от tesseract.
Но как мне реализовать алгоритм определения языка?Могу ли я использовать библиотеку C ++?