Я использую BeautifulSoup для извлечения текста из HTML, но я просто не могу понять, как правильно распечатать его на экране (или в файл в этом отношении).
Вот как выглядит мой класс, содержащий текст:
class Thread(object):
def __init__(self, title, author, date, content = u""):
self.title = title
self.author = author
self.date = date
self.content = content
self.replies = []
def __unicode__(self):
s = u""
for k, v in self.__dict__.items():
s += u"%s = %s " % (k, v)
return s
def __repr__(self):
return repr(unicode(self))
__str__ = __repr__
При попытке напечатать экземпляр Thread
вот что я вижу на консоли:
~/python-tests $ python test.py
u'date = 21:01 03/02/11 content = author = \u05d3"\u05e8 \u05d9\u05d5\u05e0\u05d9 \u05e1\u05d8\u05d0\u05e0\u05e6\'\u05e1\u05e7\u05d5 replies = [] title = \u05de\u05d1\u05e0\u05d4 \u05d4\u05de\u05d1\u05d7\u05df '
Что бы я ни пытался, я не могу получить желаемый результат (текст выше должен быть на иврите). Моя конечная цель - сериализовать Thread
в файл (используя json или pickle) и иметь возможность прочитать его обратно.
Я запускаю это с Python 2.6.6 в Ubuntu 10.10.