веб-сканер / паук, чтобы получить ссылку на основе AJAX - PullRequest
0 голосов
/ 01 июля 2011

Я хочу создать веб-сканер / паук, чтобы итеративно получать все ссылки на веб-странице, включая ссылки на основе javascript (ajax), каталогизировать все объекты на странице, создавать и поддерживать иерархию сайтов. Мой вопрос:

  • Какой язык / технология должны быть лучше (для получения ссылок на основе JavaScript)?
  • Есть ли там инструменты с открытым исходным кодом?

Спасибо

Браджеш

Ответы [ 3 ]

0 голосов
/ 01 июля 2011

Получение ссылок ajax - это то, чего даже поисковики не достигли.Это связано с тем, что ссылки ajax являются динамическими, а команда и ответ сильно различаются в зависимости от действий пользователя.Наверное, поэтому сейчас разрабатывается SEF-AJAX (AJAX, дружественная поисковой системе).Это метод, который делает веб-сайт полностью индексируемым поисковыми системами, который при посещении веб-браузера действует как веб-приложение.Для справки вы можете проверить эту ссылку: http://nixova.com

Без обид, но я не вижу никакого способа отслеживания ajax-ссылок.На этом мои знания заканчиваются.:)

0 голосов
/ 30 ноября 2014

вы можете сделать это с помощью php, simple_html_dom и java.позвольте сканеру php скопировать страницы на вашем локальном компьютере или веб-сервере, открыть его с помощью java-приложения (jpane или чего-то еще), пометить весь текст как выделенный и захватить егоотправить его в свою базу данных или где вы хотите сохранить его.отслеживать все теги или теги с помощью атрибута onclick или mouseover.проверьте, что произойдет, когда вы позвоните снова.если размер исходного html (документа, возвращенного с сервера) или хеша md5 отличается, вы знаете его эффективную ссылку и можете ее получить.я надеюсь, вы понимаете мой плохой английский: D

0 голосов
/ 01 июля 2011

Вы можете автоматизировать браузер.Например, посмотрите на http://watir.com/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...