Я новичок в области интеллектуального анализа данных и немного экспериментирую.
Допустим, у меня есть N пользователей Twitter, и я хочу найти общую тему, о которой они пишут (на основе твитов).
Затем я хочу придать больший вес каждой теме, если у этого пользователя больше подписчиков.
Затем я хочу объединить все темы, если они достаточно похожи, но при этом сохранить вес по количеству твиттеров.
Таким образом, в основном это список «важных» тем, ранжированных по авторитетам (количество пользователей в твиттере)
Например, как news.google.com, но рейтинг будет основываться на фолловерах, которые отвечают за тему.
Я бы предпочел что-то в python, так как это язык, с которым я больше всего знаком.
Есть идеи?
Спасибо
РЕДАКТИРОВАТЬ: Вот хорошийпример того, что я пытаюсь сделать (но с разными данными) http://www.facebook.com/notes/facebook-data-team/whats-on-your-mind/477517358858
В основном анализ различных данных и их взаимосвязи друг с другом: категории работы и возраст каждого человека или категории слов и количество друзейкак в этом примере.
Где бы я начал решать это и генерировать такие графики?