Какой лучший способ нормализовать оценки для ранжирования вещей? - PullRequest
3 голосов
/ 17 июня 2010

Мне интересно, как сделать нормализацию чисел для алгоритма ранжирования

скажем, я хочу ранжировать ссылку в зависимости от важности, и у меня есть два столбца для работы с

чтобы таблица выглядела как

URL | комментарии | просмотры

теперь я хочу оценивать комментарии выше, чем просмотры, поэтому я сначала подумал бы сделать комментарии * 3 или что-то такое, чтобы взвесить его, однако, если есть большое число просмотров, например, 40 000, и только 4 комментария, тогда вес комментариев будет пропущен.

Так что я думаю, что мне нужно нормализовать эти показатели до более равного игрового поля, прежде чем я смогу их взвесить. Любые идеи или указатели на то, как это обычно делается?

спасибо

Ответы [ 3 ]

5 голосов
/ 17 июня 2010

Для каждого URL вы можете сначала нормализовать комментарии и просмотры в процентили.Например,

 comment_percentile = (comments - min(comments)) / (max(comments) - min(comments))
 views_percentile = (views - min(views)) / (max(views) - min(views))

Затем вы можете назначить веса каждому из значений процентиля, чтобы вычислить общую оценку.

 url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile)

Дополнительные стратегии могут включать устранение выбросов, если значения кластеризуются к одному концу диапазона.

1 голос
/ 17 июня 2010

Важность - это действительно способ уведомления пользователя о том, насколько он заинтересован в теме форума или в блоге.В этом случае вы не можете просто умножить два числа на разные факторы и добавить:)

Что вы можете сказать о посте блога с 2000 просмотров и только одним комментарием.Ну, возможно, это спам-сообщение, или его просмотрели веб-сканеры, или это настолько скучно, что никто не решил комментировать его.против взглядов.У моего оригинального поста «процентное соотношение» составляло 1/2000, в то время как у этого поста, который получил 28 просмотров и 1 комментарий прямо сейчас, он получил бы оценку 1/28.Кстати, если у вас есть отношения более одного ... ну, начните искать ошибки:)

0 голосов
/ 17 июня 2010

Подобная проблема обсуждалась несколько недель назад в этой теме SO: «Алгоритм вычисления важности страницы на основе ее просмотров / комментариев» .

Я дам то жесовет, который я там предложил: используйте линейную регрессию для репрезентативного распределения количества комментариев / просмотров для веб-страниц, чтобы выработать весовую функцию.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...