Как преобразовать строку с фиксированным набором символов (чжуинь), пунктуациями и символами sh английского языка в последовательности чжуинь (разделенные пробелами, но иногда соединенные знаками пунктуации или sh английского языка), отдельные знаки препинания и Engli sh последовательности символов?
Для строки как таковой
"ㄉㄢˋNCCㄗㄞˋ『ㄅㄠˇ ㄏㄨˋ』ㄍㄜ˙ ㄗ,ㄉㄜ˙「ㄑㄧㄢˊ ㄊㄧˊ」ㄒㄧㄚˋ。"
Как преобразовать ее в
['ㄉㄢˋ', 'NCC', ㄗㄞˋ', '『', 'ㄅㄠˇ', 'ㄏㄨˋ', '』', 'ㄍㄜ˙', 'ㄗ', ',', 'ㄉㄜ˙', '「', 'ㄑㄧㄢˊ', 'ㄊㄧˊ', '」', 'ㄒㄧㄚˋ', '。']
В настоящее время я использую понимание списка и шаблон регулярного выражения как таковой
[seq for seq in re.split("([^\w˙])", input_str) if seq and seq != " "]
, но это не позволяет токенизировать последовательности символов sh английского языка и дает такие результаты
['ㄉㄢˋNCCㄗㄞˋ', '『', 'ㄅㄠˇ', 'ㄏㄨˋ', '』', 'ㄍㄜ˙', 'ㄗ', ',', 'ㄉㄜ˙', '「', 'ㄑㄧㄢˊ', 'ㄊㄧˊ', '」', 'ㄒㄧㄚˋ', '。']