Найдено это: https://dumps.wikimedia.org/other/pagecounts-ez/merged/, который представляет собой объединение дампов просмотров страниц.Документировано здесь: https://wikitech.wikimedia.org/wiki/Analytics/Data_Lake/Traffic/Pageviews
Вот пример скрипта Python, который тривиально печатает каждую строку одного файла.
import csv
import bz2
from pprint import pprint
with bz2.open("pagecounts-2011-12-views-ge-5-totals.bz2", "rt", errors = "replace") as fichier:
for line in fichier:
text = line.split()
if(text[0] == "fr"):
pprint(text)
С этим набором файлов, по одному в месяцстало легко настроить такой рабочий процесс: отфильтруйте действительно нужные мне залоговые права (французский wiki), ЗАГРУЗИТЕ ДАННЫЕ INFILE в базу данных MySQL и снова запросите их с помощью Python.