Как программно определить, на каком языке написано содержание сайта - PullRequest
4 голосов
/ 15 ноября 2011

Я бы хотел программно определить язык, на котором написано содержимое сайта.

Единственное, что мне приходит в голову, - это сравнить содержание сайта с некоторым набором слов, которые являются общими для конкретного языка, и исходя из процента совпадений определить язык.

Существуют ли более эффективные и надежные способы решения проблемы?

Ответы [ 3 ]

2 голосов
/ 15 ноября 2011

Если вы можете использовать API (вместо того, чтобы писать свой собственный), посмотрите на этот конкретный ответ на этот вопрос: https://stackoverflow.com/questions/6151668/alternative-to-google-translate-api/8121813#8121813

Цитата:

Если вам просто нужно определить язык, вы можете воспользоваться бесплатным веб-сервисом:

http://detectlanguage.com

Он совместим с форматами запросов и ответов API Google Translate.

1 голос
/ 21 ноября 2011

Учебное пособие по нейронной сети с примером классификации языков на основе средних частот букв http://fann.sourceforge.net/fann_en.pdf

0 голосов
/ 10 октября 2018

Я не знаю, есть ли у вас предпочтения для определенных языков, но в Python также есть пакет для определения языка, называемый langdetect

Он основан на автоматическом определении языка Googles ипо умолчанию поддерживает 55 языков.

Вы можете установить его с помощью

pip install langdetect

, а затем, например, запустить

from langdetect import detect

detect("War doesn't show who's right, just who's left.")
detect("Ein, zwei, drei, vier")

Вернет 'en' и 'de'соответственно.

Это все равно потребует от вас доступа к тексту сайта, например, через что-то вроде пакета запросов

...