C-код для преобразования печатных форм EBCDIC в ASCII на месте - PullRequest
2 голосов
/ 12 октября 2011

Какой самый простой способ в C преобразовать строку в кодировке EBCDIC в эквивалентную ASCII на месте.

Единственными символами, которые необходимо преобразовать, являются пробел, алфавитно-цифровые символы и из набора <=>()+-*/&|!$#@.,;%_?".Все остальные символы можно просто заменить на ..

Сигнатура функции в основном будет выглядеть так:

void ebcdicToAscii (char *s);

В данный момент я склоняюсь к серии справочных таблиц и несколькихif операторов для различных разделов EBCDIC, но мне интересно, есть ли лучший способ.

Ответы [ 3 ]

10 голосов
/ 12 октября 2011

Используя таблицу из здесь , от макушки моей головы:

static const unsigned char e2a[256] = {
          0,  1,  2,  3,156,  9,134,127,151,141,142, 11, 12, 13, 14, 15,
         16, 17, 18, 19,157,133,  8,135, 24, 25,146,143, 28, 29, 30, 31,
        128,129,130,131,132, 10, 23, 27,136,137,138,139,140,  5,  6,  7,
        144,145, 22,147,148,149,150,  4,152,153,154,155, 20, 21,158, 26,
         32,160,161,162,163,164,165,166,167,168, 91, 46, 60, 40, 43, 33,
         38,169,170,171,172,173,174,175,176,177, 93, 36, 42, 41, 59, 94,
         45, 47,178,179,180,181,182,183,184,185,124, 44, 37, 95, 62, 63,
        186,187,188,189,190,191,192,193,194, 96, 58, 35, 64, 39, 61, 34,
        195, 97, 98, 99,100,101,102,103,104,105,196,197,198,199,200,201,
        202,106,107,108,109,110,111,112,113,114,203,204,205,206,207,208,
        209,126,115,116,117,118,119,120,121,122,210,211,212,213,214,215,
        216,217,218,219,220,221,222,223,224,225,226,227,228,229,230,231,
        123, 65, 66, 67, 68, 69, 70, 71, 72, 73,232,233,234,235,236,237,
        125, 74, 75, 76, 77, 78, 79, 80, 81, 82,238,239,240,241,242,243,
         92,159, 83, 84, 85, 86, 87, 88, 89, 90,244,245,246,247,248,249,
         48, 49, 50, 51, 52, 53, 54, 55, 56, 57,250,251,252,253,254,255
};

void ebcdicToAscii (unsigned char *s)
{
    while (*s)
    {
        *s = e2a[(int) (*s)];
        s++;
    }
}

Для ваших особых требований я бы предложил что-то вроде:

#include <stdio.h>

void inSituEbcdicToAscii (char *s) {
    static char etoa[] =
        "                                "
        "                                "
        "           .<(+|&         !$*); "  // first char here is real space
        "-/         ,%_>?         `:#@'=\""
        " abcdefghi       jklmnopqr      "
        "  stuvwxyz                      "
        " ABCDEFGHI       JKLMNOPQR      "
        "  STUVWXYZ      0123456789      ";

    while (*s != '\0') {
        *s = etoa[(unsigned char)*s];
        s++;
    }
}

int main (void) {
    char str[] = "\xc8\x85\x93\x93\x96\x40\xa3\x88\x85\x99\x85\x5a";
    inSituEbcdicToAscii (str);
    printf ("%s\n", str);
    return 0;
}

, который выводит Hello there! из эквивалентных символов EBCDIC.Все остальные символы, кроме тех, которые вас интересуют, преобразуются в пробелы, хотя вы можете изменить это на что-то другое (убедитесь, что вы не изменяете код EBCDIC 0x40, который является real space).

3 голосов
/ 12 октября 2011

Вы, вероятно, хотите таблицу перевода. Это был бы одномерный массив из 256 элементов; каждый из них расположен в своем местоположении EBCDIC, и его значение является значением ASCII того же символа.

const char ebcdicToAsciiTable[256];

Затем для преобразования на месте:

void ebcdicToAscii(char *s) {
    size_t len = strlen(s);
    for (size_t i = 0; i < len; i++)
        s[i] = ebcdicToAsciiTable[(unsigned char)(s[i])];
}

Содержание таблицы оставлено в качестве упражнения для читателя. ;)

1 голос
/ 12 октября 2011

Простейшим было бы использование таблицы поиска с 256 записями.Вот один из способов создания такой таблицы с использованием Python:

print 'static const char kEbcdicToAscii[256] = {';
for i in range(256):
    print '    %d,' % ord(chr(i).decode('cp500'))
print '};'

Затем для декодирования:

void ebcdicToAscii(char *s)
{
    while(*s)
        *s++ = kEbcdicToAscii[(unsigned char)*s];
}

Это также, вероятно, самый быстрый метод, поскольку таблица с 256 байтами будет легковписывается в ваш кэш L1.Если вы действительно хотите преобразовать другие символы в '.' вместо их правильного преобразования, измените таблицу следующим образом:

import string

print 'static const char kEbcdicToAscii[256] = {';
for i in range(256):
    asc = chr(i).decode('cp500')
    if asc not in string.ascii_letters + string.digits + ' <=>()+-*/&|!$#@.,;%_?"':
        asc = '.'
    print '    %d,' % ord(asc)
print '};'
...