Есть ли способ получить файлы с веб-сервера, когда список каталогов деактивирован? - PullRequest
1 голос
/ 03 июля 2011

Я пытаюсь создать «сканер» или «загрузчик atuomatic» для каждого файла на основе веб-сервера / веб-страницы.

Так что, по моему мнению, есть два способа:

1) Список каталогов включен.Если это просто, прочитайте данные из списка и загрузите каждый файл, который вы видите.

2) Список каталогов отключен.Что тогда?Единственная идея состоит в том, чтобы перебирать имена файлов и видеть реакцию сервера (например, 404 для отсутствия файла, 403 для найденного каталога и данные для правильных найденных данных).

Верна ли моя идея?Есть ли лучший способ?

Ответы [ 2 ]

2 голосов
/ 03 июля 2011

Вы всегда можете проанализировать HTML-код и просмотреть и проследить («сканировать») полученные ссылки.Это способ реализации большинства искателей.

Проверьте эти библиотеки, которые могут помочь вам в этом:

  1. .NET: Html Agility Pack

  2. Python: Красивый суп

  3. PHP: HTMLSimpleDom

ВСЕГДА ищите robots.txt в корне сайта и следите за соблюдением правил сайта относительно того, какие страницы разрешено сканировать.

0 голосов
/ 03 июля 2011

Вы не должны индексировать страницы, к которым вам запрещает веб-мастер.

это все, что касается Robots.txt.

вы должны проверить файл SiteMap, которыйописано Здесь в каждой папке

обычно это sitemap.xml или иногда его имя упоминается в Robots.txt

...