Извлечение идентификатора родительской категории из wiki API с использованием идентификатора статьи? - PullRequest
0 голосов
/ 19 апреля 2020

Использование внешнего инструмента для анализа статей Википедии из файлов дампа (egenwiki-20200401-pages-article-multistream. xml .bz2)
Теперь, учитывая проанализированный объект, который я имею для В каждой статье у меня есть идентификатор вики и Категории в виде строк
Например:

{'Title':'The Dark Knight (film)',
'id':4276475,
'Categories':['2008 films',English-language films,'2000s action thriller films',...,]
}

К сожалению, эти категории слишком детализированы, и я пытаюсь их получить (например, здесь боевики-триллеры) таким образом, попытка найти родительские категории каждой категории в списке статей.

Извлечение категории было относительно простым:

import wptools
page = wptools.page('The Dark Knight (film)')
categories_and_more = page.get_more()
one_category = wptools.page(categories_and_more.data['categories'][0])

Но извлечение всех категорий, которые видят эту категорию как подкатегория не была прямой.

...