Я пытаюсь собрать всю доступную текстовую информацию (в максимально возможной степени) с веб-страниц на узбекском языке (для моего исследования). Каков наилучший способ сделать это?
Я нашел Common Crawl, но не уверен, легко ли извлечь текст на определенном языке.