Расширение не имеет смысла в сети - особенно с новыми путями типа "SEO". Вы должны проанализировать его тип контента.
Это можно сделать, запросив (с помощью метода HTTP GET
или, возможно, HEAD
) каждый URL-адрес и проанализируйте заголовки его ответов. Если заголовок ответа Content-Type не тот, который вам нужен, вам не нужно его загружать - иначе это то, на что вы хотите посмотреть.
Редактировать: HTML должен иметь text/html
в качестве типа контента, XHTML - application/xhtml+xml
(но учтите, что последний может быть предметом согласования контента, который обычно зависит от содержимого вашего заголовка принятия и агента пользователя в запросе).
Вы можете найти всю информацию о заголовках HTTP здесь .