Соскребая подкатегории (страницы) Википедии с несколькими глубинами? - PullRequest
0 голосов
/ 10 октября 2018

Если вы откроете computer science category в Википедии (https://en.wikipedia.org/wiki/Category:Computer_science),, отобразится всего 19 подкатегорий (https://en.wikipedia.org/wiki/Category:Computer_science). Теперь, для всех этих 19 подкатегорий, если я хочу extract только названия страниц (заголовки страниц). Например, у Страниц в категории Computer science есть 45 страниц, которые отображаются как bullets чуть ниже списка подкатегорий Википедии. Теперь для всех других связанных подкатегорий, напримерAreas of computer science - это подкатегория с 3 страницами (https://en.wikipedia.org/wiki/Category:Areas_of_computer_science). Но, опять же, она имеет 17 подкатегорий (т. е. глубина 1 с учетом обхода, т. е. глубина = 1 означает, что мы на 1 глубину)., algorithm and data structures (https://en.wikipedia.org/wiki/Category:Algorithms_and_data_structures) с 5 страницами и artificial intelligence (https://en.wikipedia.org/wiki/Category:Artificial_intelligence) с 333 страницами с некоторыми дополнительными categories и subcategories, охватывающими несколько страниц (см. Страницыв категории «Искусственный интеллект») с 37 категориями и 333 страницами, вот как этот список идет еще глубже. Теперь мы углубились в 2. Что мне нужно, это извлечь все страницы (заголовки) для обхода с глубиной 1 и глубиной2. Существует ли какой-либоГорифм, чтобы достичь того же самого?

Например: область компьютерных наук подкатегории снова имеет несколько (17) подкатегорий с общим количеством страниц 5 + 333 + 127 + 79 + 216 + 315 + 37 + 47+ 95 + 37 + 246 + 103 + 21 + 2 + 55 + 113 + 94 страниц с учетом всех (17) подкатегорий.Это глубина 2, потому что я переключил список дважды.Аналогичным образом, то же самое необходимо включить для остальных 18 подкатегорий (https://en.wikipedia.org/wiki/Category:Computer_science) с глубиной 2 для базового корня Информатика?

Существует ли какой-либо способ добиться этого? Отображение и извлечениетакое количество страниц сложно, потому что оно будет огромным. Таким образом, максимальный порог в 10 000 страниц будет абсолютно нормальным.

Существует ли какой-либо способ сделать это? Любая маленькая помощь очень ценится!

1 Ответ

0 голосов
/ 11 октября 2018

Существует инструмент PetScan, размещенный в лабораториях Викимедиа.Вы можете легко ввести название категории, затем выбрать глубину, которую хотите достичь, и тогда все готово!https://petscan.wmflabs.org/

Также посмотрите, как это работает https://meta.m.wikimedia.org/wiki/PetScan/en

...