Определение трендовых тем в определенной коллекции твитов - PullRequest
2 голосов
/ 08 апреля 2011

Я делаю Java-приложение, в котором мне нужно будет определить, какие трендовые темы есть в конкретной коллекции твитов, полученных через поиск в Твиттере. При поиске в Интернете я обнаружил, что алгоритм определяет, что тема находится в тренде, когда она имеет большое количество упоминаний в определенное время, то есть в точный момент. Поэтому должен быть расчет затухания, чтобы темы часто менялись. Однако у меня есть еще одно сомнение:

Как твиттер определяет, какие конкретные термины в твите должны быть ТТ? Например, я заметил, что большинство ТТ являются хэштегами или именами собственными. Есть ли в этом смысл? Или они анализируют все слова и определяют частоту?

Я надеюсь, что кто-то может мне помочь! Спасибо!

Ответы [ 2 ]

1 голос
/ 08 апреля 2011

Не думаю, что кто-то знает, кроме Твиттера, однако кажется, что хэштеги играют большую роль, но есть и другие факторы. Я думаю, что анализ всего текста займет больше времени, чем нужно, и приведет к слишком большому количеству ложных срабатываний.

Вот интересующая статья от Mashable:

http://www.sparkmediasolutions.com/pdfs/SMS_Twitter_Trending.pdf

-Ральф Винтерс

0 голосов
/ 10 апреля 2011

Вас может заинтересовать отслеживание мемов , которое, насколько я помню, делает интересные вещи с собственными существительными, но в основном идентифицирует темы в потоке, поскольку они становятся все более и менее популярными:

И в Eddi , интерактивный тематический просмотр потоков социального статуса

...