Работа с 5-го примера.
М ация # 195 (С3).
As является ASCII # 188 (до н.э.).
Я предполагаю, что Мюллер должен быть Мюллером.
Если это UTF-8, основанный на
http://en.wikipedia.org/wiki/UTF-8#Description
У нас есть
C3 BC = 1100 0011 1011 1100
Применение сопоставления UTF-8:
(110) 00011 (10) 11 1100
0000 0000 1111 1100
00FC, который является Unicode ü
U + 00FC (см. http://en.wikipedia.org/wiki/Latin_characters_in_Unicode)
Мне кажется, что вы можете работать через это программно.
Теперь решаем первый пример:
Jiå ™ ã был фактически JiÅ ™ Ã (последний символ не показан).
Игнорирование Цзи, что правильно,
C5 99 C3 AD
(110) 0 0101 (10) 01 1001 (110) 0 0011 (10) 10 1101
0159 00ED
1037 * Р.И. *
Так зовут: Йиржи. Википедия говорит, что специальный г - это чешский язык, и я тоже. Кроме того, если я гуглю Йиржи (http://www.google.com/search?q=Ji%C5%99%C3%AD&ie=utf-8&oe=utf-8), я получаю много хитов. Мы здесь победитель.
Второй пример, Торбьёрн, красиво отображается на Торбьерне, что звучит убедительно.
ИМХО, нет особой необходимости проверять их, кажется, они просто работают.