Селен get_html_source - PullRequest
       8

Селен get_html_source

0 голосов
/ 18 декабря 2009

Я пытаюсь очистить страницу телефона Verizon Wireless с помощью Selenium по следующему адресу:

http://www.verizonwireless.com/b2c/store/controller?item=phoneFirst&action=viewPhoneOverviewByDevice&deviceType=Phones&sortOption=priceSort&lid=//global//phones+and+accessories//cell+phones

Я захожу на страницу и использую get_html_source, чтобы сохранить страницу без проблем, но при переходе на страницу просмотра все данные о телефонах отсутствуют. Я не могу понять, почему это не спасло всю страницу.

Заранее спасибо за помощь!

примечание: это делается в python

Ответы [ 2 ]

0 голосов
/ 30 ноября 2016

Вместо этого для печати на экране попробуйте записать его в строку и затем сохранить в файле блокнота. Поскольку размер экранного буфера ограничен, он не показывает весь исходный контент страницы.

0 голосов
/ 13 октября 2013

Я захожу на указанный вами URL. Я видел источник вручную и с помощью веб-драйвера; нет ничего, что вы можете получить от источника.

Имейте в виду, что иногда (возможно, в большинстве случаев) все данные, которые вы видите на странице HTML, не могут быть доступны с использованием ее источника; потому что в настоящее время веб-дизайнеры часто используют AJAX, а источник почти ничего не содержит; как эта страница, которая полна методов JQuery и JS.

Это код, который я использовал, может быть, он может помочь вам в других случаях:

from selenium import webdriver
browser = webdriver.Firefox()

url = "http://www.verizonwireless.com/b2c/store/controller?&item=phoneFirst&action=viewPhoneOverviewByDevice&deviceType=Phones&sortOption=priceSort&lid=//global//phones+and+accessories//cell+phones"

browser.get(url)
html_source = browser.page_source
print html_source
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...