Я пытаюсь извлечь данные со следующей страницы:
http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#
Который, удобно и неэффективно, включает в себя все данные, встроенные в виде csv-файла в заголовок, заданные в виде переменной с именем gs_csv.
Как мне извлечь это? Document.body.innerhtml
пропускает заголовок, в котором находятся данные, какова альтернатива, включающая заголовок (или, что еще лучше, значение, связанное с gs_csv
)?
(Извините, новичок во всем этом, я искал множество документов и пробовал многие из них, но пока ничего не помогло).
Благодаря Синану (это в основном его решение, переведенное на Python).
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit