подсчитать количество слов в строке (не только латинские языки) - PullRequest
1 голос
/ 21 декабря 2011

Если я не ошибаюсь, китайский язык (и другие языки) не использует пробел ' ' в качестве разделителя слов.

Так что может быть хорошим алгоритмом, который работает на международном уровне?

1 Ответ

3 голосов
/ 21 декабря 2011

Техника, которую я видел, часто использовалась, чтобы просто посчитать количество используемых символов и разделить это на среднее число символов на слово на китайском языке. Число, которое часто используется для этого, составляет 1,5

Если текст на китайском языке содержит 1500 символов, его длина составляет примерно 1000 слов.

Мне не известен более точный способ подсчета слов, за исключением интерпретации самого текста. Это означало бы понимание контекста используемых слов, поскольку китайский символ иногда можно использовать как само слово, но также как компонент в составном слове.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...