Я пытался собрать данные с веб-сайта и записать данные, которые я нашел, в файл.Более 90% времени я не сталкиваюсь с ошибками Unicode, но когда данные имеют следующие символы, такие как «Burger King®, Hans Café», мне не нравится записывать это в файл, поэтому моя обработка ошибок печатаетна экран как есть и без каких-либо дальнейших ошибок.
Я пробовал функции кодирования и декодирования и различные кодировки, но безрезультатно.
Пожалуйста, найдите фрагмент текущего кодачто я написал ниже:
import urllib2,sys
import re
import os
import urllib
import string
import time
from BeautifulSoup import BeautifulSoup,NavigableString, SoupStrainer
from string import maketrans
import codecs
f=codecs.open('alldetails7.txt', mode='w', encoding='utf-8', errors='replace')
...
soup5 = BeautifulSoup(html5)
enc_s5 = soup5.originalEncoding
for company in iter(soup5.findAll(height="20px")):
stream = ""
count_detail = 1
for tag in iter(company.findAll('td')):
if count_detail > 1:
stream = stream + tag.text.replace(u',',u';')
if count_detail < 4 :
stream=stream+","
count_detail = count_detail + 1
stream.strip()
try:
f.write(str(stnum)+","+br_name_addr+","+stream.decode(enc_s5)+os.linesep)
except:
print "Unicode error ->"+str(storenum)+","+branch_name_address+","+stream