Конвертировать корейский текст в Unicode - PullRequest
1 голос
/ 18 ноября 2009

То, о чем я хочу спросить, довольно просто. У меня есть HTML-документ, размещенный в элементе управления веб-браузера.

Теперь, когда я выбираю корейское слово, используя свойство диапазона MSHTML, я могу получить range.htmlText и range.Text. Они оба показывают корейское слово. Все, что я хочу сделать, это преобразовать его в формат Unicode.

Возможно ли это?

К вашему сведению, я делаю все это, используя C # WinForms.

1 Ответ

1 голос
/ 25 ноября 2009

Не могли бы вы предоставить немного больше информации? В каком формате находится «корейское слово», когда вы его читаете? (Я предполагаю, что то же самое, что и заголовок HTML-документа.) Не могли бы вы опубликовать пример HTML-страницы, с которой вы пытаетесь читать?

Если проблема в том, что полученная вами строка просто находится в другой кодовой странице, вы можете использовать классы Encoding в .Net для ее преобразования. Например, возможно, ваш текст в iso-2022-кр. Вот пример для преобразования вашей строки, названной "stringInKoreanIsoEncoding" в коде ниже:

Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding));
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);
...