Как создать алгоритм MEME? - PullRequest
0 голосов
/ 16 мая 2009

если вы не знаете, что означает мем, вы можете прочитать эту статью ReadWriteWeb

У меня вопрос, как создать мем-алгоритм, у меня есть веб-сайт, на котором собраны тысячи постов в блогах, и я хочу представить наиболее обсуждаемые истории.

см. Цитату из статьи выше

"Агрегация мемов пытается сократить на отношение сигнал / шум по выяснить, что является самым обсуждаемым о новостях (и, следовательно, мы надеемся, самое главное). "

кто-нибудь знает, как это сделать ?,

это какие-нибудь простые уроки?

потому что я не очень хорош в математике.

Спасибо

Ответы [ 4 ]

1 голос
/ 16 мая 2009

Не существует «правильного» способа сделать такую ​​вещь. Есть разные способы сделать это, и вам нужно выбрать тот, который вы можете реализовать / запустить и который ведет себя так, как вам нравится. Начните с чего-то простого, что вы понимаете, и пойдите оттуда.

Например:

Бен Ривз предложил "(Количество постов в блоге с определенным тегом / общее количество постов в блоге)" и подход к поиску страниц. Если они выбирают темы подходящим для вас способом, переходите к ним.

Вот несколько других предложений,

Вы можете добавить веса для сообщений, которые зависят от того, насколько популярен веб-сайт хостинга. Например, что-то, опубликованное в New York Times, вероятно, следует считать более популярным, чем что-то в блоге Джо Шмуза, и должно получить больший вес. Это похоже на подход с рейтингом страниц и на практике может иметь небольшую разницу.

Вы можете добавить фактор времени, так как важна скорость поступления сообщений по теме. Например. если в теме B 30 сообщений с прошлой недели, а в теме C 10 сообщений с сегодняшнего дня, вы можете рассмотреть тему C как более популярную. Что если в теме D было 2 сообщения в неделю в течение прошлого года? А как насчет темы E, в которой за последний час было 5 сообщений?

1 голос
/ 16 мая 2009

Переменные:

  • Count
  • Время
  • Содержание

Подсчитать количество раз, когда содержание происходит. Если это происходит достаточно часто, тогда это соответствует требованиям. Это также должно было произойти в последнее время, иначе счет не имеет значения. Содержание должно быть хорошо связано, чтобы избежать ложных срабатываний.

Для начала взгляните на API контекстного поиска и ключевых слов Yahoo.

0 голосов
/ 28 марта 2012

Получить книгу Т. Сегарана «Программирование коллективного интеллекта»

http://shop.oreilly.com/product/9780596529321.do

В нем представлены и объяснены ключевые концепции популярности и алгоритмы ранжирования, а также приведены исчерпывающие примеры на Python.

0 голосов
/ 16 мая 2009

Предполагая, что вы хотите найти самый популярный предмет? Фактический расчет может быть довольно простым, однако объем данных, которые необходимо обработать, будет большим.

(Количество сообщений в блоге с определенным тегом / общий объем сообщений в блоге) = Популярность тега

Очевидно, вам понадобится список общих тегов / слов, чтобы их игнорировать

Тогда самый популярный пост, связанный с этим тегом = Наиболее часто связанный пост в блоге из других постов, содержащих этот тег. Кроме того, более изощренно, вы можете рассчитать вес ссылки с помощью расчета стиля PageRank. http://www.webworkshop.net/pagerank.html - Фактически это вероятность того, что при случайном просмотре вы попадете на определенную страницу, т.е. наиболее популярную

/ Мои 2цента

...