Как я могу определить язык веб-страницы, как это делает Chrome? - PullRequest
1 голос
/ 08 ноября 2011

Я пытаюсь получить корпус для определенного языка.Но когда я получаю веб-страницу, как я могу определить ее язык?Chrome может это сделать, но каков принцип?

Я могу предложить некоторые специальные методы, такие как обоснованное предположение, основанное на наборе символов, IP-адресе, тегах HTML и т. Д. Но более формальный метод?

Ответы [ 2 ]

0 голосов
/ 04 ноября 2013

Если вы просто заинтересованы в сборе корпусов на разных языках, вы можете посмотреть страницы для конкретной страны.Например, <website>.es может быть на испанском, а <website>.de - на немецком.

Кроме того, Википедия переведена на многие языки.Нетрудно написать скребок для конкретного языка.

0 голосов
/ 08 ноября 2011

Я полагаю, что общий метод заключается в рассмотрении таких вещей, как частоты букв, последовательности букв и слов, наборы символов (как вы описываете) ... есть много разных способов.Легче всего было бы просто получить несколько файлов словарей для разных языков и проверить, какой из них получает наибольшее количество просмотров со страницы, а затем предложить, скажем, следующие три в качестве альтернативы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...