Я пытаюсь создать программу python, которая может найти частоту символов и слов мандарина в текстовом документе. Проблема, с которой я сталкиваюсь, состоит в том, что многие слова на мандаринском языке представляют собой просто два или более слов, например: «ты» - это 你, а «привет» - 你好. Есть ли способ, которым моя программа может видеть 你好 и распознавать, что это не два слова (ты и хороший), а одно слово (привет)?