Посмотрим, правильно ли я понял ваш вопрос. Я знаю, что этот ответ, вероятно, неадекватен, но если вам нужен более конкретный ответ, мне нужно больше подробностей.
Вы пытаетесь запрограммировать веб-сканер, но он не может сканировать URL-адреса, заканчивающиеся на .php?
Если это так, вам нужно сделать шаг назад и подумать, почему это так. Это может быть связано с тем, что сканер выбирает, какие URL сканировать, используя регулярное выражение на основе схемы URI.
В большинстве случаев эти URL-адреса являются просто обычным HTML, но они также могут быть сгенерированным изображением (например, капчей) или ссылкой для загрузки 700-мегабайтного iso-файла - и невозможно узнать наверняка, не проверив заголовок HTTP-ответ от этого URL.
Примечание: Если вы пишете свой собственный сканер с нуля, вам понадобится хорошее понимание HTTP .
Первое, что ваш сканер увидит при получении URL-адреса, это заголовок, который содержит MIME-тип контента - он сообщает браузеру / сканеру, как обрабатывать и открывать данные HTML, обычный текст, .exe и т. Д.). Возможно, вы захотите загружать страницы на основе типа MIME вместо схемы URL. Тип MIME для HTML - text/html
, и вы должны проверить это с помощью используемой вами библиотеки HTTP, прежде чем загружать остальную часть содержимого URL.
Проблема Javascript
То же, что и выше, за исключением того, что запуск javascript в сканере / синтаксическом анализаторе довольно редок для простых проектов и может создать больше проблем, чем решить. Зачем вам нужен Javascript?
Другое решение
Если вы хотите изучать Python (или уже знаете это), я предлагаю вам взглянуть на Scrapy . Это веб-платформа для сканирования, построенная по аналогии с веб-инфраструктурой Django . Он действительно прост в использовании, и многие проблемы уже решены, поэтому он может стать хорошей отправной точкой, если вы попытаетесь узнать больше о технологии.