Я не знаю, что именно вы имеете в виду, но parse_url даст вам много информации, такой как имя хоста, строка запроса и т. Д.
Если я вас правильно понимаю, вы не узнаете, есть ли в вашем URL http. Часть схемы информации, которую возвращает parse_url, здесь ваш друг. Если схема пуста или что-то отличается от http, вы знаете, что в вашем URL не было http.
Внутри сканера вы начинаете сканировать определенную страницу и анализируете этот HTML, если я правильно понял ваш вопрос. Просто создайте базовый URL (без путей) из информации, которую предоставляет вам parse_url, и я не вижу никаких проблем.