Каков наилучший способ вычисления популярных тем или тегов? - PullRequest
168 голосов
/ 25 апреля 2009

Многие сайты предлагают некоторую статистику, например, "Самые горячие темы за последние 24 часа". Например, Topix.com показывает это в разделе «Тенденции новостей». Там вы можете увидеть темы, которые упоминаются наиболее быстро.

Я хочу вычислить такой "шум" и для темы. Как я мог это сделать? Алгоритм должен взвешивать темы, которые всегда менее горячие. Темы, которые обычно (почти) никто не упоминает, должны быть самыми горячими.

Google предлагает «Горячие тренды», topix.com показывает «Горячие темы», fav.or.it показывает «Тенденции ключевых слов» - у всех этих сервисов есть одна общая черта: они показывают только будущие тренды, которые необычно горячи в момент.

Такие термины, как «Бритни Спирс», «погода» или «Пэрис Хилтон», не появятся в этих списках, потому что они всегда горячие и частые. Эта статья называет это «проблемой Бритни Спирс».

Мой вопрос: как вы можете написать алгоритм или использовать существующий для решения этой проблемы? Имея список с ключевыми словами, которые искали за последние 24 часа, алгоритм должен показать вам 10 (например) самых горячих из них.

Я знаю, что в статье выше упоминается какой-то алгоритм. Я пытался закодировать его в PHP , но я не думаю, что это сработает. Это просто находит большинство, не так ли?

Надеюсь, вы мне поможете (примеры кодирования были бы хорошими). ​​

Ответы [ 11 ]

0 голосов
/ 05 мая 2009

Идея состоит в том, чтобы отслеживать такие вещи и замечать, когда они значительно прыгают по сравнению с их собственной базовой линией.

Таким образом, для запросов, которые имеют более чем определенный порог, отслеживайте каждый из них, и когда он изменяется на какое-то значение (скажем, почти в два раза) своего исторического значения, тогда это новая горячая тенденция.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...