Японская кодировка кодовой страницы JIS_X_0208 в Python и C ++ - PullRequest
0 голосов
/ 16 мая 2018

Я пытаюсь кодировать и декодировать японские символы, которые кодируются в JIS_X_0208.

В python я использую эту команду для кодирования моей строки от uft-8 до японских символов

string.decode('utf8').encode('iso2022_jp')

для правильного кодирования кандзи

Я декодирую это в C ++ с этой строкой в ​​UTF-16

MultiByteToWideChar(932, 0, &s[0], s.size(), &unicodeBuffer[0], s.size());

Все кандзи правильно закодированы / декодированы. Но проблема в том, что он не соответствует JIS_X_0208. Я предпочитаю указывать, что использование JIS_X_0208 является обязательным, и я не могу его изменить. Например, предполагается, что римский символ должен быть закодирован в два байта, причем первый из них начинается с 0x23, например, буква T должна быть закодирована как 0x23 0x54 (в соответствии как с его страницей википедии JIS_X_0208, так и с примером, в котором я был gevin в качестве примера) .

Полагаю, единственная проблема, которую я имею, - найти правильную кодовую страницу для кодировки, но я не могу найти ту, которая мне нужна.

Кто-нибудь знает, что такое правильная кодовая страница, или, по крайней мере, где я могу найти доступную кодовую страницу для C ++ и python для Windows?

Заранее спасибо.

...