У меня есть несколько строк, которые представляют собой предложения, которые выглядят примерно так:
Having two illnesses at the same time is known as \xe2\x80\x9ccomorbidity\xe2\x80\x9d and it can make treating each disorder more difficult.
Я закодировал исходную строку с помощью .encode()
, а затем сжал с помощью python. bz2
library.
Затем я распаковал с помощью bz2.decompress()
и использовал .decode()
, чтобы получить его обратно.
Любые идеи, как мне удобно удалить эти строки байтов из текста или избежать таких символов, как цитаты не декодируются должным образом?
Спасибо!