WebCrawling Dynamic Links - PullRequest
       8

WebCrawling Dynamic Links

0 голосов
/ 04 мая 2010

У кого-нибудь есть идеи по сканированию веб-сайтов с динамическими страницами / запросами? Я имею в виду, если я нажимаю определенную ссылку, она имеет разные значения каждый раз, когда я пытаюсь перезагрузить ее в веб-браузере. Теперь мой веб-сканер не может загрузить содержимое этих страниц. Пожалуйста, сообщите.

Ответы [ 2 ]

1 голос
/ 08 августа 2010

было бы так же, даже если оно динамическое или нет. на самом деле гусеничный это всего лишь 3 вещи

  1. URL
  2. Данные, отправленные на сервер, если это метод POST, тогда
  3. Файл cookie, если требуется аутентификация

вот и все,

общая проблема при выполнении сканера:

  1. Неправильное предположение о странице по умолчанию [index.html, index.php, default.aspx и т. Д.] .. фактически она будет работать без нее для всех методов [POST / GET]
  2. Одно имя каждого поля не написано точно
  3. Поле идентификатора viewstate формы ASP.Net (я забыл имя), но меня легко достичь
  4. Динамическая страница, сгенерированная javascript. это самая трудная часть, и в большинстве случаев даже у Google все еще есть проблема по этому поводу.

надеюсь, что поможет.

0 голосов
/ 04 мая 2010

Возможно, вы захотите взглянуть на этот вопрос, в котором подробно описано, как написать сканер, или посмотрите исходный код для http://searcharoo.net/, который содержит хороший сканер (см. здесь ).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...