Многие сайты предлагают некоторую статистику, например, "Самые горячие темы за последние 24 часа". Например, Topix.com показывает это в разделе «Тенденции новостей». Там вы можете увидеть темы, которые упоминаются наиболее быстро.
Я хочу вычислить такой "шум" и для темы. Как я мог это сделать? Алгоритм должен взвешивать темы, которые всегда менее горячие. Темы, которые обычно (почти) никто не упоминает, должны быть самыми горячими.
Google предлагает «Горячие тренды», topix.com показывает «Горячие темы», fav.or.it показывает «Тенденции ключевых слов» - у всех этих сервисов есть одна общая черта: они показывают только будущие тренды, которые необычно горячи в момент.
Такие термины, как «Бритни Спирс», «погода» или «Пэрис Хилтон», не появятся в этих списках, потому что они всегда горячие и частые. Эта статья называет это «проблемой Бритни Спирс».
Мой вопрос: как вы можете написать алгоритм или использовать существующий для решения этой проблемы? Имея список с ключевыми словами, которые искали за последние 24 часа, алгоритм должен показать вам 10 (например) самых горячих из них.
Я знаю, что в статье выше упоминается какой-то алгоритм. Я пытался закодировать его в PHP , но я не думаю, что это сработает. Это просто находит большинство, не так ли?
Надеюсь, вы мне поможете (примеры кодирования были бы хорошими).