Получить категории из Википедии: жизненно важные статьи - PullRequest
0 голосов
/ 27 октября 2018

Я пытаюсь получить "дерево категорий" из Википедии для проекта, над которым я работаю.Проблема в том, что мне нужны только более общие темы и области изучения, поэтому в более крупные дампы, которые я смог найти, включено слишком много периферийных статей.

Недавно я нашел страницы жизненно важных статей , которые, кажется, представляют собой набор именно того, что я ищу.К сожалению, я не знаю, как извлечь информацию с этих страниц или отфильтровать большие дампы, чтобы включить только эти категории и статьи.

Если говорить прямо, у меня такой вопрос: учитывая жизненно важный уровень статьи ( скажем, уровень 4 ), как я могу извлечь дерево категорий и названий статей для данного списка, например, Люди, Искусство?, Физические науки и т. Д. В CSV-файл или аналогичный файл, который я затем могу импортировать в другую программу.Мне не нужно фактическое содержание статей, просто название (и в идеале ссылка на статью, чтобы получить больше информации на более позднем этапе).

Я также открыт для предложений о том, как лучшевыполнить эту задачу.

Спасибо!

1 Ответ

0 голосов
/ 27 октября 2018

Вы использовали PetScan ?.Это инструмент, основанный на Викимедиа, который позволяет извлекать данные со страниц на основе некоторых условий.

Вы можете достичь своей цели, перейдя в инструмент, затем перейдите на вкладку «Шаблоны и ссылки», затем введите имя страницы в поле «Связано со всеми»из этих страниц: ", например Wikipedia:Vital_articles/Level/4/History.Если вы хотите добавить более одной страницы в текстовое поле, просто введите ее построчно.

Наконец, нажмите Сделать это!кнопку, и данные будут сгенерированы.После этого вы можете загрузить данные с вкладки вывода.

...