Использование внешнего инструмента для анализа статей Википедии из файлов дампа (egenwiki-20200401-pages-article-multistream. xml .bz2)
Теперь, учитывая проанализированный объект, который я имею для В каждой статье у меня есть идентификатор вики и Категории в виде строк
Например:
{'Title':'The Dark Knight (film)',
'id':4276475,
'Categories':['2008 films',English-language films,'2000s action thriller films',...,]
}
К сожалению, эти категории слишком детализированы, и я пытаюсь их получить (например, здесь боевики-триллеры) таким образом, попытка найти родительские категории каждой категории в списке статей.
Извлечение категории было относительно простым:
import wptools
page = wptools.page('The Dark Knight (film)')
categories_and_more = page.get_more()
one_category = wptools.page(categories_and_more.data['categories'][0])
Но извлечение всех категорий, которые видят эту категорию как подкатегория не была прямой.