Вам нужно будет вручную преобразовать строку. Вот некоторый (исправленный) пример кода:
#include <stdio.h>
#include <wchar.h>
#include <stdlib.h>
#include <string.h>
#include <assert.h>
#include "Foo.h"
#define SURROGATE_MASK 0xD800
#define is_surrogate(c) (((c) & SURROGATE_MASK) == SURROGATE_MASK)
static wchar_t calculate_code_point(wchar_t surrogate_1, wchar_t surrogate_2);
JNIEXPORT void JNICALL
Java_Foo_foo(JNIEnv *env, jobject obj, jstring bar) {
const jchar *chars = NULL;
wchar_t *result = NULL;
size_t len;
size_t source_pos, result_pos;
if (bar == NULL) {
return;
}
len = (*env)->GetStringLength(env, bar);
chars = (*env)->GetStringChars(env, bar, NULL);
if (chars == NULL) {
return;
}
result = (wchar_t *) malloc(sizeof(wchar_t) * (len + 1));
source_pos = result_pos = 0;
while (source_pos < len) {
wchar_t curr_char = chars[source_pos++];
if (is_surrogate(curr_char)) {
wchar_t surrogate_1 = curr_char;
wchar_t surrogate_2 = chars[source_pos++];
curr_char = calculate_code_point(surrogate_1, surrogate_2);
}
result[result_pos++] = curr_char;
}
result[result_pos] = L'\0';
(*env)->ReleaseStringChars(env, bar, chars);
printf("%ls\n", result);
free(result);
}
/**
* Based on example code from http://unicode.org/faq/utf_bom.hmtl
*/
static wchar_t calculate_code_point(wchar_t high_surrogate, wchar_t low_surrogate) {
wchar_t x = (high_surrogate & ((1 << 6) - 1)) <<10 | low_surrogate & ((1 << 10) - 1);
wchar_t w = (high_surrogate >> 6) & ((1 << 5) - 1);
wchar_t u = w + 1;
return u << 16 | x;
}
Обратите внимание, что этот код применяется только в том случае, если вы используете Java 5 или выше и ваш тип данных wchar_t имеет длину четыре байта. Если вы используете Java 1.4 или ниже или ваш тип данных wchar_t имеет длину два байта, вам не нужно беспокоиться о суррогатах.
Этот код также пропускает некоторую базовую проверку ошибок и предполагает, что первый суррогат в паре является суррогатом высшего порядка (что имеет место на моей машине). Вы можете точно сказать, какой суррогат является суррогатом высшего порядка, а какой - суррогатом низкого порядка по их соответствующим значениям. Суррогат старшего разряда находится между 0xD800 и 0xDBFF включительно. Суррогат младшего разряда находится между 0xDC00 и 0xDFFF включительно. Если вы найдете суррогат высокого порядка, который не связан с суррогатом низкого порядка или суррогатом низкого порядка, который не связан с суррогатом высокого порядка, то строка закодирована неправильно.