Если вы откроете computer science category
в Википедии (https://en.wikipedia.org/wiki/Category:Computer_science),, отобразится всего 19
подкатегорий (https://en.wikipedia.org/wiki/Category:Computer_science). Теперь, для всех этих 19
подкатегорий, если я хочу extract
только названия страниц (заголовки страниц). Например, у Страниц в категории Computer science
есть 45
страниц, которые отображаются как bullets
чуть ниже списка подкатегорий Википедии. Теперь для всех других связанных подкатегорий, напримерAreas of computer science
- это подкатегория с 3
страницами (https://en.wikipedia.org/wiki/Category:Areas_of_computer_science). Но, опять же, она имеет 17 подкатегорий (т. е. глубина 1 с учетом обхода, т. е. глубина = 1 означает, что мы на 1 глубину)., algorithm and data structures
(https://en.wikipedia.org/wiki/Category:Algorithms_and_data_structures) с 5
страницами и artificial intelligence
(https://en.wikipedia.org/wiki/Category:Artificial_intelligence) с 333
страницами с некоторыми дополнительными categories
и subcategories
, охватывающими несколько страниц (см. Страницыв категории «Искусственный интеллект») с 37 категориями и 333 страницами, вот как этот список идет еще глубже. Теперь мы углубились в 2. Что мне нужно, это извлечь все страницы (заголовки) для обхода с глубиной 1 и глубиной2. Существует ли какой-либоГорифм, чтобы достичь того же самого?
Например: область компьютерных наук подкатегории снова имеет несколько (17) подкатегорий с общим количеством страниц 5 + 333 + 127 + 79 + 216 + 315 + 37 + 47+ 95 + 37 + 246 + 103 + 21 + 2 + 55 + 113 + 94 страниц с учетом всех (17) подкатегорий.Это глубина 2, потому что я переключил список дважды.Аналогичным образом, то же самое необходимо включить для остальных 18 подкатегорий (https://en.wikipedia.org/wiki/Category:Computer_science) с глубиной 2 для базового корня Информатика?
Существует ли какой-либо способ добиться этого? Отображение и извлечениетакое количество страниц сложно, потому что оно будет огромным. Таким образом, максимальный порог в 10 000 страниц будет абсолютно нормальным.
Существует ли какой-либо способ сделать это? Любая маленькая помощь очень ценится!