Что такое алгоритм "трендовых тем" для search.twitter.com? - PullRequest
10 голосов
/ 27 сентября 2008

Какой алгоритм использует твиттер для определения 10 тем, которые вы можете увидеть на search.twitter.com ? Я хотел бы реализовать этот алгоритм, и я также хотел бы показать 50 самых популярных тем (вместо 10). Можете ли вы описать наиболее эффективный алгоритм?

Спасибо!

(API Twitters можно найти по адресу - http://apiwiki.twitter.com/REST%20API%20Documentation)

Кроме того, я хотел бы иметь возможность реализовать алгоритм путем поиска по общедоступной временной шкале- http://twitter.com/statuses/public_timeline.rss

Ответы [ 2 ]

12 голосов
/ 19 января 2011

Алгоритм трендов в Twitter - это не просто количество ключевых слов. Это часть этого, но есть также и фактор распада, так что «Джастин Бибер» не является лидером вечности.

Этот пост на кворе поддерживает это. http://www.quora.com/Trending-Topics-Twitter/What-is-the-basis-of-Twitters-current-Trending-Topics-algorithm?q=trending+algorithm

Распад обычно выполняется с использованием относительного возраста сообщения в алгоритме, придавая больший вес новым темам / сообщениям / и т. Д.

см. Также http://www.quora.com/What-tools-algorithms-or-data-structures-would-you-use-to-build-a-Trending-Topics-algorithm-for-a-high-velocity-stream?q=trending+algorithm

1 голос
/ 03 ноября 2009

Итак, что, вероятно, делает Твиттер, он подсчитывает количество упоминаний определенного термина минус стоп-слова (стоп-слова типа: делай, я, ты, я, нет, и т. Д.) Таким образом, «кошка вышла из сумки», а «моя собака съела мою кошку» означало бы, что кошка, собака и сумка - это термины, которые она извлекла (все остальные - стоп-слова) И тогда он считает 'cat' 2-мя ссылками, поэтому в этом случае 'cat' будет самой популярной темой.

...