Как сканер обеспечивает максимальный охват? - PullRequest
4 голосов
/ 04 июня 2009

Я прочитал несколько статей о сканировании в Интернете и изучил основы сканирования. По их словам, веб-сканеры просто используют URL-адреса, извлеченные другими веб-страницами и проходящие через дерево (практически меш)

В этом случае как гусеничный механизм обеспечивает максимальный охват. Очевидно, что может быть много сайтов, на которых нет реферальных ссылок с других страниц / сайтов. Используют ли поисковые системы какие-либо другие механизмы, кроме сканирования и ручной регистрации? (т.е. получение информации из реестров доменов)

Если они основаны только на сканировании, как выбрать хороший набор "корневых" сайтов, чтобы начать сканирование? (У нас нет никакого способа предсказать результаты. Если мы выберем 100 сайтов без ссылочных ссылок, двигатель создаст только 100 сайтов + их внутренние страницы)

Ответы [ 3 ]

3 голосов
/ 04 июня 2009

Очевидно, что сайтов может быть много которые не имеют реферальных ссылок от другие страницы / сайты.

Я не думаю, что это действительно такая большая проблема, как вы думаете.

Следуют ли поисковые системы любому другие механизмы, кроме ползания а ручная регистрация? (то есть информация из реестров доменов)

Ни о чем я не слышал.

Если они основаны только на сканировании, Как мы должны выбрать хороший набор «Корневые» сайты начнут сканировать?

Идеальным кандидатом был бы любой вид веб-каталога общего назначения, такой как проект открытого каталога , а также сайты социальных закладок, такие как Digg или del.icio.us

.
1 голос
/ 04 июня 2009

Не существует магического механизма, который позволил бы сканеру найти сайт, на который не ссылался ни один другой сайт, уже просканированный или не добавленный вручную в сканер.

Сканер просматривает только граф ссылок, начиная с набора вручную зарегистрированных и, следовательно, предварительно определенных корней. Все, что находится вне графика, будет недоступно для сканера - у него не будет средств для поиска этого контента.

1 голос
/ 04 июня 2009

Одним из методов, используемых для помощи сканерам, является «карта сайта». Карта сайта - это, по сути, файл, в котором перечисляется содержимое веб-сайта, чтобы сканер знал, куда перемещаться, особенно если ваш сайт имеет динамическое содержимое. Более точная карта сайта значительно повысит точность сканера.

Вот некоторая информация на карте сайта Google:

http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40318

...