Я прочитал несколько статей о сканировании в Интернете и изучил основы сканирования. По их словам, веб-сканеры просто используют URL-адреса, извлеченные другими веб-страницами и проходящие через дерево (практически меш)
В этом случае как гусеничный механизм обеспечивает максимальный охват. Очевидно, что может быть много сайтов, на которых нет реферальных ссылок с других страниц / сайтов. Используют ли поисковые системы какие-либо другие механизмы, кроме сканирования и ручной регистрации? (т.е. получение информации из реестров доменов)
Если они основаны только на сканировании, как выбрать хороший набор "корневых" сайтов, чтобы начать сканирование? (У нас нет никакого способа предсказать результаты. Если мы выберем 100 сайтов без ссылочных ссылок, двигатель создаст только 100 сайтов + их внутренние страницы)