Как использовать python для анализа большого дампа википедии в формате. xml .bz2 с использованием многопоточности, чтобы мне не нужно было открывать весь файл? - PullRequest
0 голосов
/ 06 февраля 2020

Здесь - ссылка на статью, рассказывающую о дампе википедии и о том, как использовать многопоточность, чтобы мне не нужно было открывать весь файл для его анализа. Здесь - это библиотека, которую она предлагает использовать.

Моя проблема в том, что я не знаю, как правильно использовать индексный файл или эту библиотеку для правильного анализа файла. Когда я пытаюсь распаковать его, я просто читаю серию пустых байтов «b». Что я хочу сделать, так это иметь возможность анализировать файл по несколько тысяч символов за раз, чтобы затем я мог использовать их в своем приложении NLP.

Заранее спасибо.

...