Здесь - ссылка на статью, рассказывающую о дампе википедии и о том, как использовать многопоточность, чтобы мне не нужно было открывать весь файл для его анализа. Здесь - это библиотека, которую она предлагает использовать.
Моя проблема в том, что я не знаю, как правильно использовать индексный файл или эту библиотеку для правильного анализа файла. Когда я пытаюсь распаковать его, я просто читаю серию пустых байтов «b». Что я хочу сделать, так это иметь возможность анализировать файл по несколько тысяч символов за раз, чтобы затем я мог использовать их в своем приложении NLP.
Заранее спасибо.