Я сталкиваюсь со странной проблемой: у меня есть программа, которая пытается токенизировать строки, которые могут содержать эмодзи. Я свел его к простому тестовому сценарию, который пытается разбить строку на строки, например:
\u26a0\ufe0f hello world
И в моей производственной среде (Linux) я вижу распечатанные предупреждения следующих типов:
Untokenizable: ️ (U+FE0F, decimal: 65039)
Но в моей среде разработки (Mac) я не могу воспроизвести предупреждение. Хм ...
Я могу отключить предупреждение, установив tokenize.options
в untokenizable=noneDelete
, но мне действительно любопытно, почему ошибка происходит в первую очередь. Я не могу найти какой-либо искаженный юникод в моих входных данных, что наводит меня на мысль, что PTBLexer
ведет себя немного иначе, когда сталкивается с эмодзи / юникодом в Linux против Mac.
Возможно ли это?