Question

Я использую тессеракт для распознавания текста, в основном на счетах.Однако tesseract требует указать язык перед началом обработки файла.

Я думал, что собираюсь выполнить ocr на основе предопределенного языка по умолчанию.Затем я хотел бы использовать полученный текст, чтобы проверить, какой язык используется.Если это не язык по умолчанию, я обрабатываю его снова, чтобы получить лучший результат от tesseract.

Но как мне реализовать алгоритм определения языка?Могу ли я использовать библиотеку C ++?

Abhishek Jain · Answer 1 · 09 октября 2012

Я не уверен, поможет ли это, поскольку библиотека находится на Java.Но я обнаружил, что это действительно круто, поскольку он способен обнаруживать около 50 языков по заданному тексту и с довольно хорошим уровнем точности.Возможно, вам захочется взглянуть на него и, поскольку он является открытым исходным кодом, вы можете переписать код на C ++ и вернуть его сообществу открытого исходного кода, если ваше приложение требует написания только на C ++.

Здесьэто ссылка для того же:

http://code.google.com/p/language-detection/

Примечание. Для анализа используются библиотеки Apache Nutch и Tika.

nguyenq · Answer 2 · 18 ноября 2011

В этом документе " Идентификация естественного языка для приложений OCR " описывает методы, связанные с задачами идентификации, аналогичные вашим требованиям.

Martin Thoma · Answer 3 · 25 января 2018

Возможно, вы захотите прочитать мою статью Набор данных эталонного теста WiLI для идентификации письменного языка и попробовать lidtk.

TL; DR: попробуйте CLD-2.

определение языка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

определение языка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы