Web-сканер, занимающийся «Зарегистрируйтесь или войдите, чтобы прочитать все содержимое» - PullRequest
0 голосов
/ 28 февраля 2012

Учитывая страницу типа this , я пытаюсь извлечь весь текст ответа с помощью поискового робота ruby.

Я использую nokogiri и search('div[@class="answer_content"]').inner_text для доступа к ответам, но я не могу получить доступ ко всему тексту, даже когда на самом деле я вошел в систему. Приблизительно на 200 слов, я получусообщение "Зарегистрируйтесь или войдите, чтобы прочитать все содержимое."

Кроме того, правильный ли этот класс div для использования?

1 Ответ

0 голосов
/ 29 февраля 2012

Мне кажется, что вам нужно идентифицировать себя на сканере. Я сделал это несколько недель назад. Я использовал расширение Firefox под названием Tamper Data, которое позволяло мне видеть запросы, сделанные между браузером и сервером. В моем случае аутентификация была обработана идентификатором сеанса; Мне просто нужно было вернуть его и передавать на каждый запрос, который я сделал на сервер.

Но в вашем случае аутентификация может быть выполнена другим способом, вы должны убедиться в этом сами. Во всяком случае, я могу подробно, если это не достаточно ясно.

...