Как соскрести HTTPS веб-страниц JavaScript - PullRequest
12 голосов
/ 06 апреля 2011

Я пытаюсь отслеживать ежедневные цены из онлайн-каталога. Сайт использует HTTPS и генерирует страницы каталога с помощью JavaScript. Как я могу взаимодействовать с сайтом и создавать на нем нужные мне страницы?

Я сделал это с другими сайтами, где HTML-код может быть легко доступен, у меня нет проблем с разбором HTML-кода после его создания.

Я знаю только Python и Java.

Заранее спасибо.

Ответы [ 3 ]

11 голосов
/ 06 апреля 2011

Взгляните на HTMLUnit - браузер Java без головы, который может полностью контролироваться вашим кодом. Простой пример можно увидеть здесь: http://htmlunit.sourceforge.net/gettingStarted.html

(обязательное предупреждение: снимая экран с сайта, вы можете нарушить его ToS и, возможно, открыть себя для судебных процессов; проверьте, разрешено ли вам это делать, прежде чем начать)

1 голос
/ 12 апреля 2011

Я использую webkit через привязки python для очистки содержимого javascript. Смотрите здесь, например, .

1 голос
/ 06 апреля 2011

Если они создали веб-API, с которым их JavaScript-интерфейс взаимодействует, вы могли бы проанализировать это напрямую, вместо того, чтобы пытаться идти по HTML-маршруту.

Если они запутали его или этот параметр не доступен по какой-либо другой причине, вам, в основном, понадобится веб-браузер, чтобы оценить JavaScript, а затем удалить DOM браузера. Возможно, напишите плагин для браузера?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...