Следуя этому решению потоков, мне удалось получить несколько списков, каждый из которых выглядит следующим образом:
[u '\ u05ea \ u05d0 \ u05de \ u05d9 \ u05df\ u05dc \ u05d9 ']
Я предполагаю, что это символы Юникода, но по какой-то причине я не могу преобразовать их обратно в иврит.
Я попробовал предлагаемое решение в комментариях по ссылке.Я также пытался использовать ''.join
, но это не сработало.Я получаю сообщение об ошибке:
Тип ошибки: exceptions.UnicodeEncodeError 22:42:15 T: 2806414192
M: 2425589760 ОШИБКА: Содержание ошибки: кодек «ascii» не может кодировать
символы в позиции 0-4: порядковый номер не в диапазоне (128)
Я пытался обернуть вещи в unicode()
, но все, что я получил, было таким же, как в примере выше.
Как мне этого добиться?
Примечание:
Я пытаюсь разобрать эту ссылку .
Редактировать:
Я пытаюсь преобразовать список в строку, используя join
, а затем распечатать его.Вот соответствующий кусок кода:
soup = BeautifulStoneSoup(link, convertEntities=BeautifulStoneSoup.XML_ENTITIES)
programs = soup('ul')
for i,prog in enumerate(programs):
if i==(4+getLetterValue(name)):
j = 0
while j < len(prog('li')):
li = prog('li')[j]
link = li('a')[0]
url = link['href']
text = link.contents
print ''.join(text)
link
- строка.и getLetterValue(name)
возвращает целое число, указывающее позицию в HTML-документе.