Я хочу создать приложение для определения языка, которое идентифицирует язык (и) документов.
Помимо своих собственных данных, я хочу использовать несколько многоязычных корпусов, потому что я думаю, что они помогут вклассификация.
Мне интересны основные европейские языки для начала: английский, французский, немецкий, итальянский, испанский и т. д.
Хотя я не уверен, где их найти.
NTLK, похоже, не имеет ничего подобного для нескольких языков.
Есть ли у вас какие-либо другие предложения?
В противном случае, я мог бы просто почистить данные в Интернете, например, из Вики на разных языках.языки.