Разделите предложение на отдельные слова - PullRequest
13 голосов
/ 26 января 2010

Мне нужно разбить китайское предложение на отдельные слова. Проблема с китайским заключается в том, что нет пробелов. Например, предложение может выглядеть следующим образом: 主楼怎么走 (с пробелами это будет: 主楼 怎么 走).

В данный момент я могу придумать одно решение. У меня есть словарь с китайскими словами (в базе данных). Скрипт будет:

  1. попытаться найти первые два символа предложения в базе данных (主楼),

  2. если 主楼 на самом деле является словом и находится в базе данных, скрипт попытается найти первые три символа (主楼怎). 主楼怎 - это не слово, поэтому его нет в базе данных => мое приложение теперь знает, что 主楼 - это отдельное слово.

  3. попробуйте сделать это с остальными персонажами.

Мне не очень нравится этот подход, потому что для анализа даже небольшого текста он слишком много раз запросил бы базу данных.

Есть ли другие способы решения этой проблемы?

Ответы [ 11 ]

0 голосов
/ 26 января 2010

Что ж, если у вас есть база данных со всеми словами, и нет другого способа включить это слово, я думаю, вы вынуждены повторно запросить базу данных.

...