Можно ли преобразовать символы, специфичные для языка, в латинские символы в UTF8? - PullRequest
8 голосов
/ 14 июня 2011

Мне интересно, существуют ли какие-либо отношения или существующие алгоритмы, позволяющие преобразовывать национальные символы в эквивалентные латинские символы в кодовой странице UTF8?

Например (на польском языке):

Ą -> A

Ó -> O

ż -> z

ź -> z ...

фраза типа: 'zażółć gęślą jażń'

преобразуется в: 'zazolc gesla jazn'

В настоящее время я использую массив конверсий для польского, но я ищу универсальное решение, которое обрабатывает все языки на основе латинского языка.

Спасибо

Ответы [ 3 ]

1 голос
/ 15 июня 2011

Чтобы завершить ответ, «декомпозиция Unicode + C #» привела меня к этой статье CodeProject (codeproject.com/KB/cs/UnicodeNormalization.aspx?display=Print), которая предлагает готовое к использованию решение.Умение назвать то, что вы ищете, нельзя недооценивать;) Спасибо за все ответы.

1 голос
/ 14 июня 2011

Проверьте это:

http://sourceforge.net/projects/iconvnet/

В общем, ищите что-то, называемое iconv

0 голосов
/ 14 июня 2011

Не совсем уверен, что это определенный ответ, который вам понадобится, но когда мне приходилось делать это в прошлом, я преобразовал все «специальные» символы в именованный или числовой объект, чтобы они были защищены в процессе конвертации.

...