определение языка - PullRequest
       14

определение языка

5 голосов
/ 16 ноября 2011

Я использую тессеракт для распознавания текста, в основном на счетах.Однако tesseract требует указать язык перед началом обработки файла.

Я думал, что собираюсь выполнить ocr на основе предопределенного языка по умолчанию.Затем я хотел бы использовать полученный текст, чтобы проверить, какой язык используется.Если это не язык по умолчанию, я обрабатываю его снова, чтобы получить лучший результат от tesseract.

Но как мне реализовать алгоритм определения языка?Могу ли я использовать библиотеку C ++?

Ответы [ 3 ]

3 голосов
/ 09 октября 2012

Я не уверен, поможет ли это, поскольку библиотека находится на Java.Но я обнаружил, что это действительно круто, поскольку он способен обнаруживать около 50 языков по заданному тексту и с довольно хорошим уровнем точности.Возможно, вам захочется взглянуть на него и, поскольку он является открытым исходным кодом, вы можете переписать код на C ++ и вернуть его сообществу открытого исходного кода, если ваше приложение требует написания только на C ++.

Здесьэто ссылка для того же:

http://code.google.com/p/language-detection/

Примечание. Для анализа используются библиотеки Apache Nutch и Tika.

3 голосов
/ 18 ноября 2011

В этом документе " Идентификация естественного языка для приложений OCR " описывает методы, связанные с задачами идентификации, аналогичные вашим требованиям.

0 голосов
/ 25 января 2018

Возможно, вы захотите прочитать мою статью Набор данных эталонного теста WiLI для идентификации письменного языка и попробовать lidtk.

TL; DR: попробуйте CLD-2.

...