Алгоритм ранжирования популярных постов в блоге - PullRequest
2 голосов
/ 05 марта 2012

Я создаю агрегатор блогов, такой как Techmeme , который находит наиболее популярные посты из нескольких блогов. В отличие от Techmeme, сначала я собираю сообщения в блогах из различных RSS-каналов, а затем сохраняю заголовки и соответствующие URL-адреса в базе данных. После этого я должен найти, какие самые популярные записи в блоге .

Чтобы определить главные заголовки постов в блоге, я отслеживаю подсчет общего ресурса в Facebook и Twitter для каждого поста каждого блога и оцениваю посты в блоге по их количеству. Но это не лучшее решение, потому что некоторые блоггеры могут обманывать, увеличивая количество своих сообщений с помощью мошеннических акций.

Итак, мой вопрос, какие критерии я могу использовать, чтобы определить, какие сообщения наиболее популярны? Какой будет лучший алгоритм для ранжирования сообщений в блоге?

Ответы [ 3 ]

2 голосов
/ 11 апреля 2012

Поскольку термин «популярный» в этом контексте является расплывчатым, я бы определил популярность постов в соответствии с моими критериями.Объедините все предложенные ответы и создайте разумную систему репутации для сообщений в блоге.Например, в основном Я хотел бы сделать что-то вроде этого.

  • Facebook facebook x 2
  • Twitter Share x 3
  • pagerank доменаx 2
  • 50 000 / глобальный рейтинг alexa
  • и т. д.

Наконец, вы можете суммировать все это и сравнить.Кроме того, вы можете разработать некоторые критерии, учитывающие размер поста, количество изображений в посте и т. Д.

0 голосов
/ 09 марта 2012

Как насчет использования вариации PageRank?

вот больше подробностей. http://pr.efactory.de/e-pagerank-algorithm.shtml http://en.wikipedia.org/wiki/PageRank?PHPSESSID=e371f8cacb91eff0c852a0e001893a9a

0 голосов
/ 07 марта 2012

Может быть возможно оценить совместное распределение акций по разным источникам.Трудно обнаружить мошенничество для маргинальных (т.е. единичных) показателей, но сложнее подделать целостный «органический» профиль.

...