Тенденции Твиттера с несколькими словами - PullRequest
0 голосов
/ 28 ноября 2011

Может ли кто-нибудь сказать мне, какой алгоритм использует Twitter.com для классификации тем с несколькими словами? Проблема проста, если иметь дело только с трендами, имеющими только одно слово, например, "#SoulTrainAwards" или "#DontYouWish". Но это совершенно другая проблема, когда мы имеем дело с трендами, состоящими из нескольких слов, например, «Кристет Мишель», «Счастливого Хэллоуина» или «Счастливого Рождества», поскольку слово в тренде из нескольких слов может быть другой другой тенденцией. Скажем, например, слово «Счастлив» или слово «Рождество» в одиночку.

1 Ответ

1 голос
/ 28 января 2012

Как указал пользователь judotens на этот вопрос , вы бы поделили сообщение на n-грамм.Я полагаю, что Твиттер использует не более 3 слов в актуальной теме, поэтому сообщение

Кошка съела пищу.

приведет к следующим элементам

  • кошка съела
  • кошка съела
  • съела пищу
  • кошка
  • кошка съела
  • съела
  • корм
  • кошка
  • съел
  • корм

Затем, я полагаю, он использует эти данные в качестве входных данных для какого-то алгоритма потоковой передачи , который будет возвращать наиболее частые элементы.

...