Question

Проблемы с кодировкой (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06). Я попытался посмотреть на это онлайн и попробовал следующее

 print('\udc13'.encode('utf8','surrogateescape'))

Это приводит к следующей ошибке:

UnicodeEncodeError: кодек «utf-8» не может кодировать символ «\ udc13» в позиции 0: суррогаты не допускаются

Любые предложения о том, как мне избежать этого диапазона. Я продолжаю находить новые, так что избегать каждого с помощью регулярных выражений не похоже на устойчивое решение.

Roshini · Answer 1 · 09 ноября 2018

Мне пришлось сбежать с полной дистанции u"([\udc00-\udc69])|", чтобы в итоге покататься. Наверное, мне следует расширить его до udcff или чего-то еще, чтобы сделать его более полным!

Проблемы с кодировкой utf-8 (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06), при которых решение escape-суррогатов не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Проблемы с кодировкой utf-8 (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06), при которых решение escape-суррогатов не работает

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы