Мне нужно проанализировать XML-документы Excel 97, содержащие строки, подобные приведенной ниже:
<Cell ss:StyleID="s21" ss:Formula="=IF(RC[-1]<>0,RC[-23]/RC[-1],0)"> <Data ss:Type="Number"></Data>
</Cell>
Если я правильно понимаю, символы "<" и ">" необходимо экранировать, но это не так.Поэтому, когда я использовал красивый суп для анализа этого или lxml, он выдает исключение или просто останавливается, когда встречает первый из этих символов.Я хотел бы экранировать эти символы с помощью <,> и т. Д., Чтобы я мог прочитать в документе.
Файлы огромные, их сотни, поэтому мне нужно, чтобы это было как минимум несколько быстрее.Кодировка указывается как cp-1252, если это что-то помогает.
Какой лучший способ экранирования этих недопустимых символов в красивый суп можно прочитать в файле?