Curl Проверьте, является ли домен корневым - PullRequest
0 голосов
/ 06 декабря 2011

Здравствуйте, я пытаюсь сделать маленький паук. При его создании я столкнулся с проблемой, когда мне нужно проверить, является ли ссылка корневым доменом или поддоменом.

Например:

http://www.domain.com or
http://domain.com 
http://domain.com/index.php
http://domain.com/default.php
http://domain.com/index.html
http://domain.com/default.html

. , так далее все одинаковы.

Так что мне нужна функция, которая на самом деле принимает URL-адрес строки и проверяет, является ли она корневой или домашней страницей, как бы вы ее ни называли, сайта.

1 Ответ

0 голосов
/ 06 декабря 2011

Как отмечено в комментариях, это действительно базовый аспект кодирования паука. Если вы намереваетесь закодировать паука общего назначения, вам необходимо добавить средства для разрешения URL-адресов и определения, указывают ли они на один и тот же контент и каким образом (через перенаправление или просто через дублированный контент), а также какие содержание, на которое они указывают.

Вам нужно как минимум справиться:

  • относительные пути
  • GET-переменные, которые так или иначе значимы для веб-страницы, но не отображают различия в содержании.
  • Неправильные URL-адреса.
  • Информация, связанная с JavaScript в атрибуте href.
  • Ссылки на материалы, отличные от HTML - прямые ссылки для скачивания на PDF-файлы, изображения и т. Д. (Обнаружить его по расширению не всегда достаточно, как в сценариях PHP, предоставляющих изображения).

Это лишь некоторые из аспектов, но все сводится к тому, что вид обнаружения, который вы ищете, должен быть фундаментальной частью паука, если вы намереваетесь использовать его любым родовым способом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...