Что содержит список семян на гусеничном ходу? - PullRequest
4 голосов
/ 17 мая 2011

Я читал о том, как реализовать сканер. Я понимаю, что мы начинаем со списка URL-адресов для посещения (начальный список). Посетите все эти URL и добавьте все ссылки на посещенных страницах в список (граница). Итак, сколько я должен добавить в этот список семян? Должен ли я просто добавить столько URL-адресов, сколько смогу, и надеяться, что они дадут мне столько же, сколько URL-адресов на www, и действительно ли это гарантирует, что я получу все остальные URL-адреса там? Или есть какое-то соглашение, чтобы сделать это? Я имею в виду ... что делает поисковая система, такая как Google?

1 Ответ

3 голосов
/ 17 мая 2011

По сути, они составляют большой список веб-сайтов, используя связи (ссылки) между ними. Чем больше сайтов знает ваша поисковая система, тем лучше. Единственная проблема здесь - возможность сделать этот список полезным. То есть большой список возможностей веб-сайта не означает хороший набор результатов поиска, поэтому вы должны быть в состоянии сказать, что важно на каждой веб-странице.

Но в соответствии с имеющимися у вас возможностями обработки информации вам не нужно останавливаться на достигнутом.

Это не гарантирует, что вы попадете на каждый URL, но это практически единственный практический способ сканирования в Интернете.

...