Как веб-сканер обнаруживает страницу? - PullRequest
0 голосов
/ 27 апреля 2018

Я понимаю, что веб-сканер может использовать некоторые начальные значения в качестве URL-адреса, чтобы начать рекурсивный поиск страниц, но как он обнаруживает, что содержит только HTML без какой-либо ссылки на странице и без каких-либо других ссылок на нее?

1 Ответ

0 голосов
/ 27 апреля 2018

Есть несколько способов, с помощью которых боты могут найти страницу (также ресурсы большинства ботов довольно ограничены, поэтому все основные из них могут позволить себе делать все, что перечислено здесь):

  • URL-адреса в тегах html ‘a’
  • URL, упомянутые в других тегах, атрибутах тегов и тексте
  • URL-адреса, указанные в таблицах стилей и JavaScript
  • URL-адреса, которые пользователи посещают через веб-браузеры, которые отправляют их в поисковые системы
  • тоже самое, что и выше, но плагины для браузера
  • отправленные файлы Sitemap
  • robots.txt
  • эвристика (некоторые боты пытаются определить URL-адреса по шаблонам создания URL-адресов, которые они обнаруживают на вашем сайте)
  • скрипты запускаются на странице, например если на странице выполняются сценарии YouTube или AdSense, Google будет знать Etc
...