PTBLexer: Untokenizable проблема с юникодом только в Linux? - PullRequest
0 голосов
/ 17 октября 2019

Я сталкиваюсь со странной проблемой: у меня есть программа, которая пытается токенизировать строки, которые могут содержать эмодзи. Я свел его к простому тестовому сценарию, который пытается разбить строку на строки, например:

\u26a0\ufe0f hello world

И в моей производственной среде (Linux) я вижу распечатанные предупреждения следующих типов:

Untokenizable: ️ (U+FE0F, decimal: 65039)

Но в моей среде разработки (Mac) я не могу воспроизвести предупреждение. Хм ...

Я могу отключить предупреждение, установив tokenize.options в untokenizable=noneDelete, но мне действительно любопытно, почему ошибка происходит в первую очередь. Я не могу найти какой-либо искаженный юникод в моих входных данных, что наводит меня на мысль, что PTBLexer ведет себя немного иначе, когда сталкивается с эмодзи / юникодом в Linux против Mac.

Возможно ли это?

...