У меня проблема с красивым супом.Я пытаюсь избавиться от HTML-тегов в строке, поэтому у меня есть следующая функция
def cleanHtml(self, html):
try:
soup = BeautifulSoup(html);
content = soup.findAll(text=True)
return ''.join(content);
except:
print html
, когда я теперь делаю:
print {'title' : string_with_german_umlauts}
print {'title' : self.cleanHtml(string_with_german_umlauts)}
Я получаю следующий вывод для строки 'Leder Gürtel '(имеется в виду кожаный ремень)
{'title': 'Leder G\xc3\xbcrtel'}
{'title': u'Leder G\xfcrtel'}
Правильная кодировка, конечно, \ xc3 \ xbc для умляута' ü '.После целого дня, пытаясь заставить это работать, я сдаюсь и спрошу; -)
Я ценю любую помощь, Thx