Почему при преобразовании многобайтовых символов в char32_t в качестве многобайтовой кодировки используется кодировка UTF-8 вместо c единицы? - PullRequest
2 голосов
/ 17 января 2020

Я пытался преобразовать ввод китайских символов из командной строки Windows в Big5 в UTF-8, сначала преобразовав полученный ввод в char32_t в кодировке UTF-32, а затем преобразовать его в UTF-8. Я вызывал функцию mbtoc32 из <uchar.h>, чтобы выполнить эту работу, однако она продолжала посылать «Ошибка кодирования».

Ниже приведены условия, с которыми я столкнулся:

  • Преобразование последовательности (Big5) в представление wchar_t с помощью mbstowcs выполнено успешно.
  • mbrtoc32 принимает многобайтовую последовательность как UTF-8, а языковой стандарт - нет. (Установите на "", возвращает "Китайский (традиционный) _Hong Kong SAR.950" на моей машине)

Ниже приведен код, который я писал попытаться отладить мою проблему, однако безуспешно. Он пытается преобразовать "香" китайский символ (U + 9999) в многобайтовое представление, затем пытается преобразовать кодировку Big5 "香" (0xADBB) в wchar_t и char32_t. Однако преобразование из многобайтового (Big5) в char32_t возвращает ошибку кодирования. (В отличие от этого, ввод последовательности UTF-8 «香» в mbrtoc32 действительно возвращает 0x9999 успешно)

#include <uchar.h>
#include <stdio.h>
#include <locale.h>
#include <stdlib.h>

mbstate_t state;
int main(void){
    setlocale(LC_CTYPE, "");
    printf("Your locale is: %s\n", setlocale(LC_CTYPE, NULL));
    char32_t chi_c = 0x9999;
    printf("Character U+9999 is 香\n");
    char *mbc = (char *)calloc(32, sizeof(char));
    size_t mb_len;
    mb_len = c32rtomb(mbc, chi_c, &state);
    int i;
    printf("The multibyte representation of U+9999 is:\n");
    // 0xE9A699, UTF-8
    for (i = 0; i < mb_len; i++){
        printf("%#2x\t", *(mbc + i));
    }
    char *src_mbs = (char *)calloc(32, sizeof(char));
    // "香" in Big5 encoding
    *(src_mbs + 0) = 0xad;
    *(src_mbs + 1) = 0xbb;
    wchar_t res_wc;
    mbtowc(&res_wc, src_mbs, 32); // Success, res_wc == 0x9999
    char32_t res_c32;
    mb_len = mbrtoc32(&res_c32, src_mbs, (size_t)3, &state);
    // Returns (size_t)-1, encoding error
    if (mb_len == (size_t)-1){
        perror("Encoding error");
        return errno;
    }
    else {
        printf("\nThe 32-bit character representation of U+9999 is:\n%#x", res_wc);
    }
    return 0;
}

Я также прочитал документацию из cppreference.com , как говорится,

В любом случае многобайтовая кодировка символов, используемая этой функцией, определяется текущей активной C локалью.

I ожидайте, что mbrtoc32 будет вести себя как mbtowc, который преобразует символ из кодировки c, заданного для локали, в UTF-32 (в данном случае Big5 в UTF-32).

Есть ли какие-либо решения для использования mbrtoc32 для преобразования многобайтового символа в char32_t без «ошибки кодирования»?

PS: я использую Mingw-64 на Windows 10, составлено с помощью g cc.

1 Ответ

1 голос
/ 23 января 2020

Я нашел проблему. Mingw-w64 , который я использую, ожидает, что вся многобайтовая строка, переданная в mbrtoc32 и c32rtomb, будет в UTF-8 кодировке.

Код для mbrtoc32:

size_t mbrtoc32 (char32_t *__restrict__ pc32,
         const char *__restrict__ s,
         size_t n,
         mbstate_t *__restrict__ __UNUSED_PARAM(ps))
{
    if (*s == 0)
    {
    *pc32 = 0;
    return 0;
    }

    /* ASCII character - high bit unset */
    if ((*s & 0x80) == 0)
    {
    *pc32 = *s;
    return 1;
    }

    /* Multibyte chars */
    if ((*s & 0xE0) == 0xC0) /* 110xxxxx needs 2 bytes */
    {
    if (n < 2)
        return (size_t)-2;

    *pc32 = ((s[0] & 31) << 6) | (s[1] & 63);
    return 2;
    }
    else if ((*s & 0xf0) == 0xE0) /* 1110xxxx needs 3 bytes */
    {
    if (n < 3)
        return (size_t)-2;

    *pc32 = ((s[0] & 15) << 12) | ((s[1] & 63) << 6) | (s[2] & 63);
    return 3;
    }
    else if ((*s & 0xF8) == 0xF0) /* 11110xxx needs 4 bytes */
    {
    if (n < 4)
        return (size_t)-2;

    *pc32 = ((s[0] & 7) << 18) | ((s[1] & 63) << 12) | ((s[2] & 63) << 6) | (s[4] & 63);
    return 4;
    }

    errno = EILSEQ;
    return (size_t)-1;
}

и для c32rtomb:

size_t c32rtomb (char *__restrict__ s,
         char32_t c32,
         mbstate_t *__restrict__ __UNUSED_PARAM(ps))
{
    if (c32 <= 0x7F) /* 7 bits needs 1 byte */
    {
    *s = (char)c32 & 0x7F;
    return 1;
    }
    else if (c32 <= 0x7FF) /* 11 bits needs 2 bytes */
    {
    s[1] = 0x80 | (char)(c32 & 0x3F);
    s[0] = 0xC0 | (char)(c32 >> 6);
    return 2;
    }
    else if (c32 <= 0xFFFF) /* 16 bits needs 3 bytes */
    {
    s[2] = 0x80 | (char)(c32 & 0x3F);
    s[1] = 0x80 | (char)((c32 >> 6) & 0x3F);
    s[0] = 0xE0 | (char)(c32 >> 12);
    return 3;
    }
    else if (c32 <= 0x1FFFFF) /* 21 bits needs 4 bytes */
    {
    s[3] = 0x80 | (char)(c32 & 0x3F);
    s[2] = 0x80 | (char)((c32 >> 6) & 0x3F);
    s[1] = 0x80 | (char)((c32 >> 12) & 0x3F);
    s[0] = 0xF0 | (char)(c32 >> 18);
    return 4;
    }

    errno = EILSEQ;
    return (size_t)-1;
}

обе эти функции ожидали, что данная многобайтовая строка будет в UTF-8 без учета Настройки локали. Функции mbrtoc32 и c32rtomb on glib c просто вызывают их аналог широких символов для преобразования символов. Поскольку широкие преобразования символов работают правильно на Mingw-w64 , я использовал mbrtowc и wcrtomb для замены mbrtoc32 и c32rtomb соответственно, как в glib c:

#include <uchar.h>
#include <stdio.h>
#include <locale.h>
#include <stdlib.h>

mbstate_t state;
int main(void){
    setlocale(LC_CTYPE, "");
    printf("Your locale is: %s\n", setlocale(LC_CTYPE, NULL));
    char *src_mbs = "\xad\xbb"; // "香" in Big5 encoding
    char32_t src_c32 = 0x9999; // "香" code point
    unsigned char *r_mbc = (char *)calloc(32, sizeof(char));
    if (r_mbc == NULL){
        perror("Failed to allocate memory");
        return errno;
    }
    size_t mb_len = wcrtomb(r_mbc, (wchar_t)src_c32, &state); // Returns 0xADBB, Big5 of "香", OK
    printf("Character U+9999 is %s, ( ", r_mbc);
    for (int i = 0; i < mb_len; i++){
        printf("%#hhx ", *(r_mbc + i));
    }
    printf(")\n");
    // mb_len = c32rtomb(r_mbc, src_c32, &state); // Returns 0xE9A699, UTF-8 representation of "香", expected Big5
    // printf("\nThe multibyte representation of U+9999 is:\n");
    // for (i = 0; i < mb_len; i++){
    //     printf("%#hhX\t", *(r_mbc + i));
    // }
    char32_t r_c32 = 0;
    // mb_len = mbrtoc32(&r_c32, src_mbs, (size_t)3, &state);
    // Returns (size_t)-1, encoding error
    mb_len = mbrtowc((wchar_t *)&r_c32, src_mbs, (size_t)3, &state); // Returns 0x9999, OK
    if (mb_len == (size_t)-1){
        perror("Encoding error");
        return errno;
    }
    else {
        printf("\nThe 32-bit character representation of U+9999 is:\n%#x", r_c32);
    }
    return 0;
}
...