Все,
Я только начал использовать Python (v 2.7.1), и одна из моих первых программ пытается очистить информацию с веб-сайта, содержащего данные о электростанциях, используя Стандартную библиотеку и BeautifulSoup для обработкиэлементы HTML.
Данные, к которым я хотел бы получить доступ, доступны либо в разделе «Голова» HTML, либо в виде таблиц в основной части.Веб-сайт сгенерирует файл CSV из этих данных, если щелкнуть ссылку CSV.
Используя несколько источников на этом веб-сайте, мне удалось собрать воедино приведенный ниже код, который извлечет данные и сохранит их.в файл, но он содержит обозначения \ n.Как ни старайся, я не могу получить правильный CSV-файл для сохранения.
Я уверен, что это что-то простое, но нужна небольшая помощь, если это возможно!
from BeautifulSoup import BeautifulSoup
import urllib2,string,csv,sys,os
from string import replace
bm_url = 'http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=T_COTPS-4¶m2=¶m3=¶m4=¶m5=2011-02-05¶m6=*'
data = urllib2.urlopen(bm_url).read()
soup = BeautifulSoup(data)
data = str(soup.findAll('head',limit=1))
data = replace(data,'[<head>','')
data = replace(data,'<script language="JavaScript" src="/bwx_generic.js"></script>','')
data = replace(data,'<link rel="stylesheet" type="text/css" href="/bwx_style.css" />','')
data = replace(data,'<title>Historic Physical Balancing Mechanism Data</title>','')
data = replace(data,'<script language="JavaScript">','')
data = replace(data,' </script>','')
data = replace(data,'</head>]','')
data = replace(data,'var gs_csv=','')
data = replace(data,'"','')
data = replace(data,"'",'')
data = data.strip()
file_location = 'c:/temp/'
file_name = file_location + 'DataExtract.txt'
file = open(file_name,"wb")
file.write(data)
file.close()