Сканирование сайтов с помощью Javascripts или веб-форм - PullRequest
5 голосов
/ 30 марта 2010

У меня есть приложение веб-сканера.Здесь успешно сканируются самые распространенные и простые сайты.Теперь я столкнулся с некоторыми типами веб-сайтов, где HTML-документы динамически генерируются с помощью FORMS или JavaScript.Я верю, что их можно ползти, и я просто не знаю как.Теперь эти сайты не отображают фактическую HTML-страницу.Я имею в виду, если я просматриваю эту страницу в IE или Firefox, HTML-код не соответствует тому, что на самом деле в IE или Firefox.Эти сайты содержат текстовые поля, флажки и т. Д., Поэтому я считаю, что это то, что они называют «веб-формами».На самом деле я не очень хорошо знаком с веб-разработкой, так что поправьте меня, если я ошибаюсь.

Мой вопрос: кто-нибудь в такой же ситуации, как я сейчас, и успешно решал эти типы "задач"?Кто-нибудь знает какую-то книгу или статью о сканировании в Интернете?Те, что относятся к этим продвинутым типам сайтов?

Спасибо.

Ответы [ 3 ]

1 голос
/ 30 марта 2010

Я нашел статью, которая затрагивает глубокую сеть и она очень интересна, и я думаю, что это отвечает на мои вопросы выше.

http://www.trycatchfail.com/2008/11/10/creating-a-deep-web-crawler-with-net-background/

Должен любить это.

1 голос
/ 30 марта 2010

Здесь есть два отдельных вопроса.

Формы

Как правило, сканеры делают , а не сенсорные формы.

Возможно, было бы целесообразно написать что-то для определенного веб-сайта, который представляет заранее определенные (или полуслучайные) данные (особенно при написании автоматических тестов для ваших собственных веб-приложений), но обобщенные сканеры должны оставить их в покое.

Спецификация, описывающая, как отправлять данные формы, доступна по адресу http://www.w3.org/TR/html4/interact/forms.html#h-17.13,, может быть библиотека для C #, которая поможет.

JavaScript

JavaScript - довольно сложный зверь.

Есть три распространенных способа справиться с этим:

  1. Напишите свой сканер, чтобы он дублировал функции JS определенных веб-сайтов, которые вам нужны.
  2. Автоматизация веб-браузера
  3. Используйте что-то вроде Rhino с env.js
0 голосов
/ 27 ноября 2016

AbotX обрабатывает JavaScript из коробки. Это не бесплатно, хотя.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...