детектор языка - PullRequest
       3

детектор языка

2 голосов
/ 06 февраля 2012

Мне нужен код Java, который читает текст внутри документа и говорит, что на каком языке (английский, испанский, ...). Формат документа не важен. Я хочу, чтобы вывод был, например: «Этот документ на испанском». Пожалуйста, ведите меня таким образом и дайте мне пример кода для этого.

Ответы [ 3 ]

3 голосов
/ 06 февраля 2012

я бы использовал API Google Переводчик http://code.google.com/apis/language/translate/v1/using_rest_langdetect.html

1 голос
/ 06 февраля 2012

Стандартный подход состоит в том, чтобы создать n-граммовые модели для ваших языков-кандидатов, затем построить аналогичную модель для целевого документа и сравнить с эталонными моделями с помощью простого вычисления расстояния редактирования.Сайт Гертьян ван Ноорда http://www.let.rug.nl/vannoord/TextCat/competitors.html содержит ссылки на несколько библиотек, которые вы можете использовать.

0 голосов
/ 08 февраля 2012

Библиотека Language-Detection довольно проста в использовании в Java (см. Пример кода) и надежна. Обнаружение не менее 53 языков из самых разных семей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...