Я пытаюсь написать программу, которая, например, соскребет максимальную цену с этой веб-страницы:
http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults
Во-первых, я легко могу найтиHTML, выполнив следующее:
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
import mechanize
webpage = 'http://www.kayak.com/#/flights/JFK-PAR/2012-06-01/2012-07-01/1adults'
br = mechanize.Browser()
data = br.open(webpage).get_data()
soup = BeautifulSoup(data)
print soup
Однако необработанный HTML не содержит цены.Браузер делает ... это вещь (пояснение здесь может помочь мне также) ... и получает цену из другого места, пока он создает дерево DOM.
Я был убежден, что механизация будет действовать так же, как мойбраузер и вернуть дерево DOM, в которое я также верю, это то, что я вижу, например, когда смотрю на страницу Chrome Developer Tools (если я ошибаюсь, как мне получить что-тоинформация о цене хранится в?) Есть ли что-то, что я должен сказать механизировать, чтобы увидеть дерево DOM?
Как только я смогу вставить дерево DOM в python, все остальное, что мне нужно сделать, должносовсем несложноСпасибо!