Beautifulsoup экранирует недопустимые символы xml перед анализом - PullRequest
0 голосов
/ 03 декабря 2018

Мне нужно проанализировать XML-документы Excel 97, содержащие строки, подобные приведенной ниже:

<Cell ss:StyleID="s21" ss:Formula="=IF(RC[-1]<>0,RC[-23]/RC[-1],0)"> <Data ss:Type="Number"></Data>
</Cell>

Если я правильно понимаю, символы "<" и ">" необходимо экранировать, но это не так.Поэтому, когда я использовал красивый суп для анализа этого или lxml, он выдает исключение или просто останавливается, когда встречает первый из этих символов.Я хотел бы экранировать эти символы с помощью <,> и т. Д., Чтобы я мог прочитать в документе.

Файлы огромные, их сотни, поэтому мне нужно, чтобы это было как минимум несколько быстрее.Кодировка указывается как cp-1252, если это что-то помогает.

Какой лучший способ экранирования этих недопустимых символов в красивый суп можно прочитать в файле?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...