Мне нужно разбить китайское предложение на отдельные слова. Проблема с китайским заключается в том, что нет пробелов. Например, предложение может выглядеть следующим образом: 主楼怎么走
(с пробелами это будет: 主楼 怎么 走
).
В данный момент я могу придумать одно решение. У меня есть словарь с китайскими словами (в базе данных). Скрипт будет:
попытаться найти первые два символа предложения в базе данных (主楼
),
если 主楼
на самом деле является словом и находится в базе данных, скрипт попытается найти первые три символа (主楼怎
). 主楼怎
- это не слово, поэтому его нет в базе данных => мое приложение теперь знает, что 主楼
- это отдельное слово.
попробуйте сделать это с остальными персонажами.
Мне не очень нравится этот подход, потому что для анализа даже небольшого текста он слишком много раз запросил бы базу данных.
Есть ли другие способы решения этой проблемы?