Я хочу обнаружить слова в тексте, т.е. мне нужно знать, какие символы в данном тексте являются буквами, то есть они могут быть частью (произнесенного) слова, а какие, с другой стороны, пунктуации и тому подобное.
Например, в вышеприведенном предложении «I», «хочу» и «i» и «e» являются словами в этом отношении, а пробелы «.» и запятая не являются.
Сложность в том, что я хочу иметь возможность читать любые сценарии, основанные на Юникоде. Например, немецкое слово "schön" - это одно слово. Но как насчет греческого, арабского или японского?
Итак, мне нужна таблица или список, в котором указаны все диапазоны символов, которые могут образовывать слова. По желанию я также хотел бы знать, какие символы являются цифрами, которые могут образовывать числа (при условии, что другие сценарии имеют схемы нумерации, аналогичные арабским числам).
Мне это нужно для Mac OS X, Windows и Linux. Я напишу приложение на C, поэтому оно должно быть либо библиотекой ОС, либо полным решением кода / данных, которое я мог бы перевести на C.
Я знаю, что Mac OS (Какао) предлагает функции для этой цели, но я не уверен, существуют ли похожие решения для Win и Linux (возможно, на основе gtk?).
Кроме того, я мог бы написать свой собственный код, если бы у меня были полные таблицы.
Я нашел графики Unicode (http://unicode.org/charts/index.html#scripts), но это не входит в одну удобную форму, которую я мог бы использовать в программировании.
Так, может кто-нибудь сказать мне, есть ли функции для Windows и Linux для этой цели, или где я могу найти полную таблицу / список символов слова в юникоде?