Извлечение конкретных c статей и их страниц обсуждений из дампа WIkiPedia - PullRequest
0 голосов
/ 02 августа 2020

Я совершенно не знаком с поиском в Интернете. У меня есть следующая ссылка на дамп из Википедии: https://dumps.wikimedia.org/backup-index.html У меня есть список заголовков статей. Все они написаны на английском языке sh. Мне нужно скачать эти статьи и их страницы обсуждений из указанных дампов. Пожалуйста, дайте мне знать, с чего начать.

1 Ответ

1 голос
/ 04 августа 2020

Это во многом зависит от вашего варианта использования. У вас есть относительно небольшой набор (скажем, несколько сотен) страниц для выборки? Go для API, он может предоставить вам как вики-текст, так и HTML, в то время как дампы предоставят вам только викитекст.

Если вам нужно go дампы или просто хотите узнать, как работать с ними лучше всего, https://en.wikipedia.org/wiki/Wikipedia: Database_download # How_to_use_multistream ? может быть хорошим учебным материалом.

...