Отличительные символы мандарин против слов - PullRequest
0 голосов
/ 10 февраля 2020

Я пытаюсь создать программу python, которая может найти частоту символов и слов мандарина в текстовом документе. Проблема, с которой я сталкиваюсь, состоит в том, что многие слова на мандаринском языке представляют собой просто два или более слов, например: «ты» - это 你, а «привет» - 你好. Есть ли способ, которым моя программа может видеть 你好 и распознавать, что это не два слова (ты и хороший), а одно слово (привет)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...