Я пытаюсь кодировать и декодировать японские символы, которые кодируются в JIS_X_0208.
В python я использую эту команду для кодирования моей строки от uft-8 до японских символов
string.decode('utf8').encode('iso2022_jp')
для правильного кодирования кандзи
Я декодирую это в C ++ с этой строкой в UTF-16
MultiByteToWideChar(932, 0, &s[0], s.size(), &unicodeBuffer[0], s.size());
Все кандзи правильно закодированы / декодированы.
Но проблема в том, что он не соответствует JIS_X_0208. Я предпочитаю указывать, что использование JIS_X_0208 является обязательным, и я не могу его изменить.
Например, предполагается, что римский символ должен быть закодирован в два байта, причем первый из них начинается с 0x23, например, буква T должна быть закодирована как 0x23 0x54 (в соответствии как с его страницей википедии JIS_X_0208, так и с примером, в котором я был gevin в качестве примера) .
Полагаю, единственная проблема, которую я имею, - найти правильную кодовую страницу для кодировки, но я не могу найти ту, которая мне нужна.
Кто-нибудь знает, что такое правильная кодовая страница, или, по крайней мере, где я могу найти доступную кодовую страницу для C ++ и python для Windows?
Заранее спасибо.