скребки и комбайны - PullRequest
       5

скребки и комбайны

0 голосов
/ 08 декабря 2011

Веб-скребки или харвестеры - это программное обеспечение, которое получает данные с веб-сайта, Я буду очень признателен, если кто-нибудь может предложить эти различные пакеты программного обеспечения, доступные на рынке.
Они должны иметь возможность собирать динамически (например, AJAX) веб-сайты.

1 Ответ

1 голос
/ 08 декабря 2011

Веб-присоска обычно переходит по жестким ссылкам на странице (href s), чтобы перейти на следующую страницу.С ajax это совсем другое.Контент отправляется клиенту только по запросу.Поскольку я не знаю ни одного веб-скребка с действительно эффективным способом задания параметров, я бы сделал для этого собственный инструмент.Это в основном состоит в том, чтобы подделать мой собственный запросчик и использовать его (подключаемый модуль) на веб-сервисе сервера.Вы можете сделать это на разных языках, если тот поддерживает запросы http get / post.

Чтобы исследовать способ подделки запроса:

  1. Установите браузер webkit (япредложил бы использовать Safari по некоторым причинам политики безопасности)
  2. Перейдите на общедоступную страницу для связи с интересующим вас веб-сервисом
  3. Сделайте обычный запрос
  4. Использование Web* инспектор Safari, посмотрите, что произошло на вкладке Сеть, когда вы сделали запрос.
  5. В заголовках вы узнаете URL запроса (servicePath), а также используемый метод.Если это GET, то все просто: вам нужно только изменить параметры в URL, чтобы создать свой.Если это POST, вам нужно глубже изучить отправленные данные, а затем отправить аналогичные данные.
  6. Вы можете проверить публикацию на сервере, используя JavaScript.Вот мой способ продолжить: На веб-сайте jQuerify страница, чтобы позволить консоли java вызывать методы jQuery.Вы можете сделать это, добавив букмарклет jQuerify
  7. В консоли Web Inspector (введите esc, чтобы она появилась, если она скрыта), попробуйте подделать сообщение следующим образом (здесь для сообщения jSon):

$.post("servicePath.php", {"your": "forgedRequest"},function(data){alert(data)})

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...