У меня есть строка в кодировке Unicode:
s = "ᠤᠷᠢᠳᠤ ᠲᠠᠯᠠ ᠶᠢᠨ ᠬᠠᠪᠲᠠᠭᠠᠢ ᠬᠡᠪᠲᠡᠭᠡ"
метод разделения, который он возвращает, несколько изменен, с \u180e
во втором слове.
>>> print(s.split())
['ᠤᠷᠢᠳᠤ', 'ᠲᠠᠯ\u180eᠠ', 'ᠶᠢᠨ', 'ᠬᠠᠪᠲᠠᠭᠠᠢ', 'ᠬᠡᠪᠲᠡᠭᠡ']
Что я хочу получить:
['ᠤᠷᠢᠳᠤ', 'ᠲᠠᠯᠠ ᠶᠢᠨ', 'ᠶᠢᠨ', 'ᠬᠠᠪᠲᠠᠭᠠᠢ', 'ᠬᠡᠪᠲᠡᠭᠡ']
В чем причина и как ее решить?