найти базовую ссылку данного URL - PullRequest
1 голос
/ 03 апреля 2012

Я модифицирую простой скрипт php crawler.

один из используемых им модулей - это преобразователь относительных URL-адресов в абсолютные.

Для этого мне нужно найти способ определения базового href данного URL. В противном случае я получаю кучу неправильно преобразованных ссылок.

Мне нужна простая функция, чтобы проверить, имеет ли URL базовый тег href, и, если да, верните его.

Спасибо

Ответы [ 3 ]

0 голосов
/ 03 апреля 2012

Я не знаю, что именно вы имеете в виду, но parse_url даст вам много информации, такой как имя хоста, строка запроса и т. Д.

Если я вас правильно понимаю, вы не узнаете, есть ли в вашем URL http. Часть схемы информации, которую возвращает parse_url, здесь ваш друг. Если схема пуста или что-то отличается от http, вы знаете, что в вашем URL не было http.

Внутри сканера вы начинаете сканировать определенную страницу и анализируете этот HTML, если я правильно понял ваш вопрос. Просто создайте базовый URL (без путей) из информации, которую предоставляет вам parse_url, и я не вижу никаких проблем.

0 голосов
/ 03 апреля 2012

Мне нужна простая функция, чтобы проверить, имеет ли URL базовый тег href, и, если да, верните его.

URL не может иметь тег base href, так как этоHTML-тег.Это может быть определено в HTML, который вы извлекаете из этого URL.Как читать то, что можно найти на этот вопрос .

0 голосов
/ 03 апреля 2012

parse_url() разбивает URL на части. Вы можете получить то, что вам нужно от этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...