Алгоритмы / Техники для рейтинга сайта (кроме PageRank) - PullRequest
4 голосов
/ 16 октября 2011

Я ищу алгоритмы / методы, которые могут представить важность одной веб-страницы.Оставляя в стороне PageRank, есть ли другие способы сделать такой рейтинг, основанный на содержании, структуре и гиперссылках друг с другом?

Я говорю не только о соединении между www.foo.com и www.bar.com, как это делает PageRank, а также с www.foo.com/bar на www.foo.com/baz и т. д. (помимо факта адаптации PageRank для этих нужд)

Как мне "определить «важность ». В этом контексте я думаю о важности как «насколько эта сторона важна для пользователя, а также насколько она важна для остальной части сайта».
Например, рождественская лотерея объявляетсястартовая страница с единственной ссылкой, ведущей на этот сайт, более важна как для пользователя, так и для сайта.Отпечаток, на котором есть ссылка с каждого сайта (поскольку он в основном находится где-то в нижнем колонтитуле) не важен, хотя на него много ссылок.Отпечаток также не важен для сайта как «единицы», поскольку он не дает никакой реальной ценности для целевой страницы (= предоставление информации, продажа продуктов, общее обслуживание и т. Д.)

Ответы [ 2 ]

1 голос
/ 16 октября 2011

Существует также SALSA , которая более стабильна, чем HITS [поэтому она меньше страдает от спама].

Поскольку вас также интересует контекст страниц, вы можете захотеть иметьпосмотрите на работу Хавеливала над рангом, чувствительным к теме

1 голос
/ 16 октября 2011

Другим известным алгоритмом является Хабы и Власти (HITS) .По сути, вы классифицируете свою страницу как Hub (страница с большим количеством исходящих ссылок) и Authorities (страница с большим количеством входящих ссылок).

Но вы должны действительно определить, что вы подразумеваете под важностью.Что действительно важно значит? PageRank определяет его в отношении входящих ссылок.Это PageRank определения.

Если вы определите важный как фотографию, потому что вам нравится фотография.Тогда вы можете придумать важный показатель, такой как количество фотографий на странице .Другим показателем может быть количество входящих ссылок с сайта фотографии (например, flickr.com, 500px, ...)

Используя ваше определение важно , вы можете использовать `1- (количество входящих ссылок, деленное на количество страниц на сайте).Это дает число от 0 до 1. 0 означает не важно, а 1 означает важно.

При использовании этого показателя ваш отпечаток, который отображается на всех страницах сайта, имеет значение 0. Ваша рождественская распродажа, который имеет только одну ссылку на него, имеет значение почти 1

...