Понимание математики, лежащей в основе PageRank и аналогичных алгоритмов - PullRequest
2 голосов
/ 01 октября 2010

Я посмотрел на кучу ресурсов, предоставленных схожими вопросами, заданными на этом сайте, наиболее полезные из них были найдены в этом обсуждении, и ссылки, ссылки на которые приведены здесь: PageRank Explained. 1003 *

Хотя здесь приводится подробный обзор, я ищу что-то более конкретное. Хотя я понимаю, что в игру вовлечены и другие факторы, и с момента его создания в алгоритм было внесено множество изменений, хорошим показателем значения, передаваемого по каждой ссылке, является следующее: PageRank, деленный на общее число связанных страниц. Так что, если у сайта (страницы) PR составляет 8, а ссылки на 20 сайтов, общая сумма, передаваемая каждому сайту, составляет 8/20. По крайней мере, это то, во что я склонен верить. Я знаю, что PageRank представляет собой значение от 1 до 10 в логарифмическом масштабе, что означает, что перейти от PR 1 к 2 значительно проще, чем PR 9 к 10. Вот где я запутался - как рассчитать сумму? PR передается на каждую ссылку. Я очень сильно упрощаю вещи, потому что страница с PR 10 с около 10 исходящими ссылками должна все же передавать большую ценность, чем сайт PR 5 с 2 исходящими ссылками. Каков наилучший способ понять правильную математику за этим на простом уровне?

1 Ответ

1 голос
/ 01 октября 2010

Во-первых, стоит отметить, что PageRank в том виде, в котором он реализован в настоящее время, сильно отличается от первоначальной идеи в документе, и, поскольку он постоянно меняется, даже другая информация в этом вопросе SO не совсем надежна. Но я думаю, что основы похожи.

Я думаю, что PageRank делится до преобразования в логарифмическую шкалу, поэтому, если у вас есть PageRank с P и n> 0 исходящих ссылок, передаваемый PR будет (несколько меньше, чем из-за коэффициента затухания) P - log_10 п. Таким образом, при 10 ссылках PR снизится на 1, при 100 ссылках - на 2, и так далее. Конечно, если n равно 0, то PageRank не передается другим страницам, он просто теряется.

...