У меня есть блок текста (выдержка из БД), и я хотел бы найти символы, отличные от Юникода, потому что в некоторой части кода (python 3.6
) при преобразовании значений в str
I получите следующее ValueError: character U+ffffffc2 is not in range [U+0000; U+10ffff]
Так что, если я найду не-юникодные символы, я могу решить, что с ними делать. Я определенно не хочу заменять их чем-то другим.
Я нашел, как найти не-ascii-символы в файле с grep --color='auto' -P -n '[^\x00-\x7F]' file_name.txt
, но я не уверен, дает ли это мне и не-unicode-символы.