Question

Я понимаю, что веб-сканер может использовать некоторые начальные значения в качестве URL-адреса, чтобы начать рекурсивный поиск страниц, но как он обнаруживает, что содержит только HTML без какой-либо ссылки на странице и без каких-либо других ссылок на нее?

Bob · Answer 1 · 27 апреля 2018

Есть несколько способов, с помощью которых боты могут найти страницу (также ресурсы большинства ботов довольно ограничены, поэтому все основные из них могут позволить себе делать все, что перечислено здесь):

URL-адреса в тегах html ‘a’
URL, упомянутые в других тегах, атрибутах тегов и тексте
URL-адреса, указанные в таблицах стилей и JavaScript
URL-адреса, которые пользователи посещают через веб-браузеры, которые отправляют их в поисковые системы
тоже самое, что и выше, но плагины для браузера
отправленные файлы Sitemap
robots.txt
эвристика (некоторые боты пытаются определить URL-адреса по шаблонам создания URL-адресов, которые они обнаруживают на вашем сайте)
скрипты запускаются на странице, например если на странице выполняются сценарии YouTube или AdSense, Google будет знать Etc

Как веб-сканер обнаруживает страницу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как веб-сканер обнаруживает страницу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы