Определение априорного рейтинга сайтов, которые пользователь, скорее всего, посетил - PullRequest
1 голос
/ 11 марта 2010

Это для http://cssfingerprint.com

У меня большая база данных (~ 100 миллионов строк) сайтов. Это включает в себя как основные домены (как 2LD, так и 3LD) и конкретные URL-адреса, скопированные с этих доменов (независимо от того, размещены ли они там [как большинство блогов] или связаны только с ними [как Digg], и со ссылкой на домен хоста).

Я также очищаю топ-миллион Алекса, топ-1000 Bloglines, рейтинг Google PageRank, топ-100 Technorati и рейтинг Топ-миллиона Quantcast. У многих доменов не будет рейтинга или только частичный набор; и почти все URL-адреса поддоменов вообще не имеют рейтинга, кроме рейтинга страниц Google 0-10 (у некоторых его даже нет).

Я могу добавить любые новые необходимые соскобы, при условии, что это не требует огромного количества паутинга.

У меня также есть достаточное количество информации о том, какие сайты посещали предыдущие пользователи.

Мне нужен алгоритм, который упорядочивает эти URL-адреса в зависимости от вероятности того, что посетитель посетил этот URL-адрес без каких-либо сведений о текущем посетителе. (Однако он может использовать агрегированную информацию о предыдущих пользователях.)

Этот вопрос касается относительно фиксированного (или хотя бы агрегированного) априорного рейтинга; есть другой вопрос , который касается получения динамического рейтинга.

Учитывая, что у меня ограниченные ресурсы (как вычислительные, так и финансовые), как лучше всего расположить эти сайты в порядке априорной вероятности их посещения?

...