Question

Я пытаюсь разобрать документы Medline xml, используя iterparse в модуле xml.etree.ElementTree. Все работает хорошо, за исключением того, что часть текста содержит символы, отличные от ascii. Я не вижу способа обработки юникода с использованием findtext. Есть предложения?

chown · Answer 1 · 03 ноября 2011

Вы пытались открыть файл с кодировкой utf8:

fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)

Или используйте декодирование:

fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)

seandavi · Answer 2 · 03 ноября 2011

Это был очень полезный пост в дополнение к ответу выше.

Чтение символов utf-8 из файла gzip в python

xml.etree.ElementTree и unicode findtext

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

xml.etree.ElementTree и unicode findtext

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы