Конвертировать UTF-8 в ANSI в C ++ - PullRequest
2 голосов
/ 28 ноября 2011

Я нигде не могу найти ответ на этот вопрос.

Как преобразовать строку из UTF-8 в ANSI (расширенный ASCII) в C ++?

Ответы [ 3 ]

6 голосов
/ 28 ноября 2011

Обычно используется libiconv ( webpage ), который является переносимым и работает на большинстве платформ. Как упомянул KerrekSB, у вас будут большие проблемы, если вы будете думать о наборе символов как о «расширенном ASCII» - я уверен, что есть по крайней мере сто наборов символов, которые можно назвать «расширенным ASCII», включая UTF-8.

Также убедитесь, что вы знаете, какую кодировку вы хотите: ISO-8859-1 или CP1252. Версия Windows заменяет управляющие коды C1 дополнительными печатными символами.

2 голосов
/ 08 февраля 2016

Только для Windows:

string UTF8ToANSI(string s)
{
    BSTR    bstrWide;
    char*   pszAnsi;
    int     nLength;
    const char *pszCode = s.c_str();

    nLength = MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, NULL, NULL);
    bstrWide = SysAllocStringLen(NULL, nLength);

    MultiByteToWideChar(CP_UTF8, 0, pszCode, strlen(pszCode) + 1, bstrWide, nLength);

    nLength = WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, NULL, 0, NULL, NULL);
    pszAnsi = new char[nLength];

    WideCharToMultiByte(CP_ACP, 0, bstrWide, -1, pszAnsi, nLength, NULL, NULL);
    SysFreeString(bstrWide);

    string r(pszAnsi);
    delete[] pszAnsi;
    return r;
}
2 голосов
/ 28 ноября 2011

Предполагая, что под "ANSI" вы на самом деле имеете в виду один из вариантов ISO 8859, мы должны начать с пары пунктов.

Во-первых, не каждая строка может быть преобразована из UTF-8 (илиUnicode в целом, независимо от используемого преобразования) в ISO 8859. Unicode имеет уникальную кодовую точку практически для каждого символа в каждом языке на Земле.

ISO 8859 поддерживает гораздо меньше языков и имеет отдельный набор символов длякаждый язык, который он поддерживает;одни и те же коды представляют разные символы на разных языках.

Это означает, что входная строка UTF-8 довольно легко содержит символы, которые вообще не могут быть представлены ни в одном из вариантов ISO 8859, а также легкоон должен содержать символы, для представления которых требуются разные варианты ISO 8859.

Во-вторых, даже в лучшем случае преобразование может быть весьма нетривиальным.Если это вообще возможно, вы почти наверняка захотите использовать библиотеку (например, libiconv) для этой задачи.Например, Unicode имеет ... функцию, называемую "объединение диакритических знаков", которая позволяет вам кодировать что-то вроде "A с острым акцентом" как одну кодовую точку или две отдельные кодовые точки (однадля «А» и другой для акцента).Чтобы закодировать это в ISO 8859, вам придется преобразовать их все в одну форму (обычно это предварительно комбинированная форма).

Прежде чем выполнять какую-либо значительную работу с Юникодом, вы также обычно хотите преобразоватьUTF-8 в UCS-4.

Итак, последовательность будет выглядеть примерно так:

  1. Преобразование UTF-8 в UCS-4
  2. Преобразование комбинированных диакритических знаковв буквы с диакритическими знаками (возможно, NFKC).
  3. Убедитесь, что все символы могут быть закодированы в целевом наборе символов
  4. Преобразовать в целевой набор

В зависимости отесли вы предпочитаете делать что-то, вы можете объединить 3 и 4 в один шаг, преобразовывая символы по ходу и, например, выбрасывая исключение, если вы встретите символ, который не может быть представлен в целевом наборе символов.

...