Question

Я сталкиваюсь со странной проблемой: у меня есть программа, которая пытается токенизировать строки, которые могут содержать эмодзи. Я свел его к простому тестовому сценарию, который пытается разбить строку на строки, например:

\u26a0\ufe0f hello world

И в моей производственной среде (Linux) я вижу распечатанные предупреждения следующих типов:

Untokenizable: ️ (U+FE0F, decimal: 65039)

Но в моей среде разработки (Mac) я не могу воспроизвести предупреждение. Хм ...

Я могу отключить предупреждение, установив tokenize.options в untokenizable=noneDelete, но мне действительно любопытно, почему ошибка происходит в первую очередь. Я не могу найти какой-либо искаженный юникод в моих входных данных, что наводит меня на мысль, что PTBLexer ведет себя немного иначе, когда сталкивается с эмодзи / юникодом в Linux против Mac.

Возможно ли это?

PTBLexer: Untokenizable проблема с юникодом только в Linux?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

PTBLexer: Untokenizable проблема с юникодом только в Linux?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы