Я пытаюсь получить "дерево категорий" из Википедии для проекта, над которым я работаю.Проблема в том, что мне нужны только более общие темы и области изучения, поэтому в более крупные дампы, которые я смог найти, включено слишком много периферийных статей.
Недавно я нашел страницы жизненно важных статей , которые, кажется, представляют собой набор именно того, что я ищу.К сожалению, я не знаю, как извлечь информацию с этих страниц или отфильтровать большие дампы, чтобы включить только эти категории и статьи.
Если говорить прямо, у меня такой вопрос: учитывая жизненно важный уровень статьи ( скажем, уровень 4 ), как я могу извлечь дерево категорий и названий статей для данного списка, например, Люди, Искусство?, Физические науки и т. Д. В CSV-файл или аналогичный файл, который я затем могу импортировать в другую программу.Мне не нужно фактическое содержание статей, просто название (и в идеале ссылка на статью, чтобы получить больше информации на более позднем этапе).
Я также открыт для предложений о том, как лучшевыполнить эту задачу.
Спасибо!