Функции в файле дампа Википедии - PullRequest
1 голос
/ 11 апреля 2020

Мы можем использовать functions из Wikipedia API для получения некоторых результатов из Wikipedia.

Например:

**import Wikipedia

print(Wikipedia.search("Bill", results=2)).**

Мой вопрос, как я могу использовать Wikipedia API функции для конкретной c версии Википедии (например, просто Википедия 2017)? !!

1 Ответ

2 голосов
/ 11 апреля 2020

Я сомневаюсь, что это возможно. PyWikibot использует онлайн-API MediaWiki (в данном случае для сайта Wikipedia). Это всегда живые данные.

Дампы, о которых вы упоминаете, представляют собой офлайн-снимки данных Википедии (если вы говорите о https://dumps.wikimedia.org/). Эти данные никоим образом не связаны с MediaWiki API и поэтому могут не запрашивать их.

Что вы можете сделать для go через данные Википедии за определенное время c:

  • Если это ограниченное количество страниц: вы можете написать скрипт, который просматривает доступные ревизии страницы и выбирает тот, который ближе всего к желаемому времени. Это, вероятно, подвержено ошибкам, много работы и на самом деле не масштабируется
  • Загрузите дамп, к которому вы хотите запросить, и напишите скрипт, который может работать с файлами (например, дамп базы данных или данные c html сбросить в зависимости от того, что вы хотите сделать, это не очень понятно из вашего вопроса)
...