Проблемы с кодировкой (\ udbff, \ udc13, \ udc02, \ udc00, \ udc06). Я попытался посмотреть на это онлайн и попробовал следующее
print('\udc13'.encode('utf8','surrogateescape'))
Это приводит к следующей ошибке:
UnicodeEncodeError: кодек «utf-8» не может кодировать символ «\ udc13» в позиции 0: суррогаты не допускаются
Любые предложения о том, как мне избежать этого диапазона. Я продолжаю находить новые, так что избегать каждого с помощью регулярных выражений не похоже на устойчивое решение.