Как веб-сканеры создают каталоги URL для очистки необходимого содержимого - PullRequest
0 голосов
/ 11 октября 2018

Я пытаюсь понять, как работает веб-сканирование.Есть 3 вопроса:

  1. Нужен ли нам начальный каталог URL-адресов, чтобы создать больший каталог URL-адресов?Как это работает?
  2. Существуют ли веб-сканеры с открытым исходным кодом, написанные на python?
  3. Где лучше всего узнать больше о веб-сканерах?

1 Ответ

0 голосов
/ 11 октября 2018

Отвечая на ваш второй вопрос первым; Scrapy - отличный инструмент для очистки веб-страниц в python.

При его использовании существует несколько способов запуска пауков.CrawlSpider может быть предоставлен список начальных URL-адресов для начала.Затем он очищает эти страницы в поисках новых ссылок, которые добавляются в очередь страниц для поиска.

Другой способ его использования - с помощью паука sitemap.Для этого паука вы предоставляете сканеру список URL-адресов файлов сайтов.Затем паук ищет список страниц из карты сайта и сканирует их.

...