Где / как получить 10 000 лучших статей в Википедии по количеству просмотров страниц? - PullRequest
0 голосов
/ 23 апреля 2019

Я хотел бы получить около 10000 статей в Википедии заголовков по просмотрам страниц в английском проекте Wiki.

Мне нужно , а не нужны просмотры страниц, чтобы прийтис данными.Мне просто нужно знать, что у меня есть 10000 лучших названий статей.

Список 10000 лучших был бы великолепен, так как я могу использовать это для очистки.JSON из лучших X был бы еще лучше!

Topviews и Massviews были отличным ресурсом, и о-о-так близки к тому, что яищу!

Однако Topviews ограничивает список 490, а Massviews требует поискового запроса.Мне бы хотелось, чтобы самые популярные статьи Wiki были представлены во всем английском проекте.

Я открыт для дампов данных, API или любого другого существующего инструмента.Ценю помощь Вики.

1 Ответ

0 голосов
/ 24 апреля 2019

Вот ответ на мой вышеупомянутый вопрос создателя инструмента Massviews / Topviews, замечательного мистера Леона Зимбы:

Я не уверен, что вы подразумеваете под "всеми категориями". Вы имеете в виду все статьи по всему проекту? https://tools.wmflabs.org/topviews,, если это поможет.

Или вы имеете в виду, что хотите дать Massviews сразу несколько категорий? Если это так, то в качестве обходного пути можно использовать комбинацию Petscan, Page Pile, а затем Massviews: * Перейдите к https://petscan.wmflabs.org/, добавьте свои категории, выбрав "union" в качестве "Combination", затем нажмите "Do it!". * Нажмите на вкладку «Вывод» в правом верхнем углу, выберите «PagePile» в качестве формата. Другие варианты, вероятно, можно оставить как есть. Нажмите "Сделай это!" еще раз. * Теперь вы должны быть в PagePile. В верхнем левом углу будет написано «Pile 123», где 123 - номер кучи. Обратите внимание на это. * Вернитесь к Massviews. Выберите «Page Pile» в качестве источника и укажите номер стопки. * Прибыль!

В Massviews есть опция «Включить все подкатегории». Может быть, это поможет вам здесь. Однако по соображениям производительности вы получите более 20 000 результатов.

Если вам нужно 10000 страниц по просмотрам страниц, для всех страниц во всей английской Википедии, это придется вычислять вручную с использованием необработанных наборов данных. Было бы невозможно, чтобы инструмент просматривал каждую статью в Википедии в реальном времени. Дампы необработанных наборов данных можно найти по адресу https://dumps.wikimedia.org/other/pageviews/.

...