Я изменил свой код на:
#!/usr/bin/env python
import glob
import codecs
from BeautifulSoup import BeautifulSoup
with codecs.open('dump2.csv', "w", encoding="utf-8") as csvfile:
for file in glob.glob('*html*'):
print 'Processing', file
soup = BeautifulSoup(open(file).read())
rows = soup.findAll('tr')
for tr in rows:
cols = tr.findAll('td')
#print >> csvfile,"#".join(col.string for col in cols)
#print >> csvfile,"#".join(td.find(text=True))
for col in cols:
print >> csvfile, col.string
print >> csvfile, "==="
print >> csvfile, "***"
Код теперь извлекает данные с разделителями * и ===. Затем я использую perl для помещения в чистый CSV-файл. По какой-то причине он не извлекает все необходимые данные, но «пропускает» некоторые данные, например, данные Address1 и Address 2 + Дата и Время и Номер в начале таблицы не отображаются.