Получение общего просмотра страницы из (французской) Википедии за страницей - PullRequest
0 голосов
/ 18 марта 2019

Я ищу общий просмотр страницы (с июля 2015 г., дата выпуска API PageViews до 1 января 2019 г.) любой страницы французского проекта Википедии.

Использование API PageViews ( Как использовать API Википедии для получения статистики по просмотрам страницы определенной страницы в Википедии? ) мне кажется слишком тяжелым: мне нужны данные с более 2 миллионов страниц.

Использование MassViews (https://tools.wmflabs.org/massviews/) с запросом, возвращающим заголовки всех страниц (https://quarry.wmflabs.org/query/34473)) также не работают: MassView страдает ограничением в 20000 страниц и не может получить данные для некоторых заголовков страниц из моего Результаты запроса.

Знаете ли вы какие-нибудь более эффективные инструменты для этого?

Ответы [ 2 ]

0 голосов
/ 18 марта 2019

Найдено это: https://dumps.wikimedia.org/other/pagecounts-ez/merged/, который представляет собой объединение дампов просмотров страниц.Документировано здесь: https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews

Вот пример скрипта Python, который тривиально печатает каждую строку одного файла.

import csv
import bz2
from pprint import pprint

with bz2.open("pagecounts-2011-12-views-ge-5-totals.bz2", "rt", errors = "replace") as fichier:
    for line in fichier:
        text = line.split()
        if(text[0] == "fr"):
            pprint(text)

С этим набором файлов, по одному в месяцстало легко настроить такой рабочий процесс: отфильтруйте действительно нужные мне залоговые права (французский wiki), ЗАГРУЗИТЕ ДАННЫЕ INFILE в базу данных MySQL и снова запросите их с помощью Python.

0 голосов
/ 18 марта 2019

Дампы всех просмотров страниц можно скачать здесь: https://dumps.wikimedia.org/other/pageviews/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...