То, что вы ищете, является задачей по интенсивному программированию данных.Вот аналогичный вопрос , уже опубликованный в StackOverflow.Я думал о предложении этого проекта , потому что корпус из Википедии легко доступен, но, как вы можете видеть, он уже выполняется.
Запустите обратный прокси-сервер squid и соберите логи тех, кто запромежуток времени.Теперь используйте эти журналы и попытайтесь получить осмысленную интерпретацию и сохранить их в подходящей базе данных для запросов.Это может быть хороший проект.