Есть ли способ разобрать все вступительные разделы Википедии? - PullRequest
0 голосов
/ 11 апреля 2019

Я хотел бы извлечь первый абзац всех страниц Википедии из дампа Википедии, предпочтительно используя python.Я пробовал несколько библиотек (gensim, mwparserfromhell и т. Д.), Но все они довольно часто выдают плохой контент.Пакет wikipedia, кажется, работает, но он делает это, вызывая API для получения сводки, что, вероятно, не практично для каждой отдельной статьи Википедии.

Я также проверил файл дампа рефератов икажется, есть проблемы.Например, для Autism элемент <abstract> имеет вид «| duration = Долгосрочный».Однако

https://en.wikipedia.org/w/api.php?format=json&action=query&prop=extracts&exintro&explaintext&redirects=1&titles=Autism

, похоже, дает правильные данные.Есть ли способ извлечь что-то похожее из файлов дампа?

...