Я хотел бы извлечь первый абзац всех страниц Википедии из дампа Википедии, предпочтительно используя python.Я пробовал несколько библиотек (gensim, mwparserfromhell и т. Д.), Но все они довольно часто выдают плохой контент.Пакет wikipedia
, кажется, работает, но он делает это, вызывая API для получения сводки, что, вероятно, не практично для каждой отдельной статьи Википедии.
Я также проверил файл дампа рефератов икажется, есть проблемы.Например, для Autism
элемент <abstract>
имеет вид «| duration = Долгосрочный».Однако
https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exintro&explaintext&redirects=1&titles=Autism
, похоже, дает правильные данные.Есть ли способ извлечь что-то похожее из файлов дампа?