Проблемы с кодировкой utf-8 (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06), при которых решение escape-суррогатов не работает - PullRequest
0 голосов
/ 09 ноября 2018

Проблемы с кодировкой (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06). Я попытался посмотреть на это онлайн и попробовал следующее

 print('\udc13'.encode('utf8','surrogateescape'))

Это приводит к следующей ошибке:

UnicodeEncodeError: кодек «utf-8» не может кодировать символ «\ udc13» в позиции 0: суррогаты не допускаются

Любые предложения о том, как мне избежать этого диапазона. Я продолжаю находить новые, так что избегать каждого с помощью регулярных выражений не похоже на устойчивое решение.

1 Ответ

0 голосов
/ 09 ноября 2018

Мне пришлось сбежать с полной дистанции u"([\udc00-\udc69])|", чтобы в итоге покататься. Наверное, мне следует расширить его до udcff или чего-то еще, чтобы сделать его более полным!

...