Поиск актуальных тем из потока данных - PullRequest
1 голос
/ 17 июня 2009

Найти тренд для одного слова очень просто: вы можете разбить каждое слово на поток данных, выполнить подсчет и ограничить его за последние 24 часа или 48 часов. Я не уверен, как найти тренды из двух или трех словосочетаний? Любая помощь оценена

1 Ответ

0 голосов
/ 17 июня 2009

Итак, у вас есть кое-что - для случая с одним словом - которое говорит что-то вроде:

while (true)
    word = readNextWord()
    register(word, now)
    discardWordsOlderThan (now - windowSize)

Просто следите за предыдущим словом:

while (true)
    word = readNextWord()
    register(prev + " " + word, now)
    prev = word
    discardWordsOlderThan (now - windowSize)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...