Библиотека Unicode Light C - PullRequest
       43

Библиотека Unicode Light C

53 голосов
/ 24 ноября 2008

Я ищу небольшую библиотеку C для обработки строк utf8.

В частности, расщепление на основе разделителей Юникода для использования с алгоритмами стеммирования.

Похожий пост предложил:

ICU http://www.icu -project.org / (мне показалось слишком громоздким для моих целей на встроенных устройствах)

UTF8-CPP: http://utfcpp.sourceforge.net/ (Отлично, но C ++ не C)

Кто-нибудь находил какие-либо независимые от платформы небольшие библиотеки кодовой базы для обработки строк Unicode (не нужно выполнять натурализацию).

Ответы [ 3 ]

34 голосов
/ 24 ноября 2008

Хорошая, легкая библиотека, которую я успешно использую: utf8proc .

15 голосов
/ 30 октября 2011

Там также MicroUTF-8 .

9 голосов
/ 24 ноября 2008

UTF-8 специально разработан таким образом, что многие побайтно-ориентированные строковые функции продолжают работать или требуют лишь незначительных изменений.

Например, функция

C strstr будет отлично работать до тех пор, пока оба ее ввода являются допустимыми строками UTF-8 с нулевым окончанием. strcpy работает нормально, пока его входная строка начинается с границы символа (например, возвращаемое значение strstr).

Так что вам может даже не понадобиться отдельная библиотека!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...