Некоторое время в ближайшем будущем мне потребуется ввести подсчет межъязыковых слов или, если это невозможно, подсчет межъязыковых символов.
Под подсчетом слов я подразумеваю точное количество слов, содержащихся в данном тексте, с учетом языка текста. Язык текста задается пользователем и будет считаться правильным.
Под количеством символов я подразумеваю количество символов «возможно в слове», содержащихся в данном тексте, с той же информацией о языке, описанной выше.
Я бы предпочел первый подсчет, но я знаю о связанных с этим трудностях. Мне также известно, что с последним считать намного проще, но очень предпочитаю первое, если это вообще возможно.
Мне бы понравилось, если бы мне просто пришлось взглянуть на английский, но мне нужно рассмотреть все языки здесь: китайский, корейский, английский, арабский, хинди и т. Д.
Я хотел бы знать, есть ли у Stack Overflow какие-либо указания относительно того, с чего начать поиск существующего продукта / метода для этого в PHP, поскольку я хороший ленивый программист *
Простой тест , показывающий, как str_word_count с set_locale не работает, и функция со страницы php.net str_word_count.
*http://blogoscoped.com/archive/2005-08-24-n14.html