Многоязычный корпус для набора данных обучения - PullRequest
1 голос
/ 23 мая 2019

Я хочу создать приложение для определения языка, которое идентифицирует язык (и) документов.

Помимо своих собственных данных, я хочу использовать несколько многоязычных корпусов, потому что я думаю, что они помогут вклассификация.

Мне интересны основные европейские языки для начала: английский, французский, немецкий, итальянский, испанский и т. д.

Хотя я не уверен, где их найти.

NTLK, похоже, не имеет ничего подобного для нескольких языков.

Есть ли у вас какие-либо другие предложения?

В противном случае, я мог бы просто почистить данные в Интернете, например, из Вики на разных языках.языки.

...