Question

Я пытаюсь создать «сканер» или «загрузчик atuomatic» для каждого файла на основе веб-сервера / веб-страницы.

Так что, по моему мнению, есть два способа:

1) Список каталогов включен.Если это просто, прочитайте данные из списка и загрузите каждый файл, который вы видите.

2) Список каталогов отключен.Что тогда?Единственная идея состоит в том, чтобы перебирать имена файлов и видеть реакцию сервера (например, 404 для отсутствия файла, 403 для найденного каталога и данные для правильных найденных данных).

Верна ли моя идея?Есть ли лучший способ?

Jay Sidri · Answer 1 · 03 июля 2011

Вы всегда можете проанализировать HTML-код и просмотреть и проследить («сканировать») полученные ссылки.Это способ реализации большинства искателей.

Проверьте эти библиотеки, которые могут помочь вам в этом:

ВСЕГДА ищите robots.txt в корне сайта и следите за соблюдением правил сайта относительно того, какие страницы разрешено сканировать.

Maziar Taheri · Answer 2 · 03 июля 2011

Вы не должны индексировать страницы, к которым вам запрещает веб-мастер.

это все, что касается Robots.txt.

вы должны проверить файл SiteMap, которыйописано Здесь в каждой папке

обычно это sitemap.xml или иногда его имя упоминается в Robots.txt

Есть ли способ получить файлы с веб-сервера, когда список каталогов деактивирован?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Есть ли способ получить файлы с веб-сервера, когда список каталогов деактивирован?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы