Question

В настоящее время я использую HTML Agility Pack в C # для веб-сканера. Мне удалось избежать многих проблем (недопустимые URI, такие как ссылки "/extra/url/to/base.html" и "#"), но мне также нужно обрабатывать PHP, Javascript и т. Д. сайты, ссылки на PHP, и когда мой веб-сканер пытается перейти к ним, происходит сбой. Одним из примеров является страница аккордеонной ссылки PHP / Javascript. Как бы я пошел по навигации / парсинг этих ссылок?

hannson · Answer 1 · 23 февраля 2010

Посмотрим, правильно ли я понял ваш вопрос. Я знаю, что этот ответ, вероятно, неадекватен, но если вам нужен более конкретный ответ, мне нужно больше подробностей.

Вы пытаетесь запрограммировать веб-сканер, но он не может сканировать URL-адреса, заканчивающиеся на .php?

Если это так, вам нужно сделать шаг назад и подумать, почему это так. Это может быть связано с тем, что сканер выбирает, какие URL сканировать, используя регулярное выражение на основе схемы URI.

В большинстве случаев эти URL-адреса являются просто обычным HTML, но они также могут быть сгенерированным изображением (например, капчей) или ссылкой для загрузки 700-мегабайтного iso-файла - и невозможно узнать наверняка, не проверив заголовок HTTP-ответ от этого URL.

Примечание: Если вы пишете свой собственный сканер с нуля, вам понадобится хорошее понимание HTTP .

Первое, что ваш сканер увидит при получении URL-адреса, это заголовок, который содержит MIME-тип контента - он сообщает браузеру / сканеру, как обрабатывать и открывать данные HTML, обычный текст, .exe и т. Д.). Возможно, вы захотите загружать страницы на основе типа MIME вместо схемы URL. Тип MIME для HTML - text/html, и вы должны проверить это с помощью используемой вами библиотеки HTTP, прежде чем загружать остальную часть содержимого URL.

Проблема Javascript

То же, что и выше, за исключением того, что запуск javascript в сканере / синтаксическом анализаторе довольно редок для простых проектов и может создать больше проблем, чем решить. Зачем вам нужен Javascript?

Другое решение
Если вы хотите изучать Python (или уже знаете это), я предлагаю вам взглянуть на Scrapy . Это веб-платформа для сканирования, построенная по аналогии с веб-инфраструктурой Django . Он действительно прост в использовании, и многие проблемы уже решены, поэтому он может стать хорошей отправной точкой, если вы попытаетесь узнать больше о технологии.

Веб-сканер Разбор PHP / Javascript ссылок?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Веб-сканер Разбор PHP / Javascript ссылок?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов