Я пытаюсь очистить весь HTML-код из строки, чтобы в результате получить текстовый файл. У меня есть некоторые исследования различных «преобразователей», и я начинаю склоняться к созданию собственного словаря для сущностей и символов и выполнению замены в строке. Я рассматриваю это, потому что я хочу автоматизировать процесс, и есть много различий в качестве основного HTML. Чтобы начать сравнение скорости моего решения и одной из альтернатив, например, pyparsing, я решил проверить замену \ xa0, используя метод замены строки. Я получаю
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa0 in position 0: ordinal not in range(128)
Фактическая строка кода была
s=unicodestring.replace('\xa0','')
В любом случае, я решил, что мне нужно ввести его перед r, поэтому я запустил следующую строку кода:
s=unicodestring.replace(r'\xa0','')
Он работает без ошибок, но я, когда я смотрю на кусок s, я вижу, что \ xaO все еще там