Как сканировать сеть для определенного языка - PullRequest
0 голосов
/ 05 апреля 2019

Я пытаюсь собрать всю доступную текстовую информацию (в максимально возможной степени) с веб-страниц на узбекском языке (для моего исследования). Каков наилучший способ сделать это?

Я нашел Common Crawl, но не уверен, легко ли извлечь текст на определенном языке.

...