Какая кодировка символов может соответствовать этому преобразованию: от "§" до "Ç"? - PullRequest
0 голосов
/ 23 июня 2010

Строка ниже является примером одного из многих файлов с неправильной кодировкой символов, которые у меня есть;

REAPRESENTA§AO VIA DTENTRY

Правильное представление должно быть таким:

REAPRESENTAÇAO VIA DTENTRY

Есть ещесимволы с неправильной кодировкой.Как мне исправить это?

альтернативный текст http://nerull.webs.com/screen.JPG

1 Ответ

3 голосов
/ 23 июня 2010

Сами файлы не имеют неправильную кодировку, именно при чтении файла вы используете неправильную кодировку для их декодирования.

Исправление заключается в использовании той же кодировки для декодирования файла, который былиспользуется для его кодирования.

Если вы не знаете, что это за кодировка, вы должны выяснить байт-код проблемных символов перед их декодированием и найти кодировку с набором символов, где символкод соответствует требуемому символу.

Например, файл может быть закодирован с использованием IBM905, чтобы символ «" »был закодирован в байтовый код 74. Если вы затем декодируете файл с использованием IBM278, байткод 74 интерпретируется как символ «§».

Вот список возможных комбинаций, которые я нашел во встроенных кодировках:

from cp875 to IBM290
from cp875 to IBM420
from cp875 to x-EBCDIC-KoreanExtended
from cp875 to IBM-Thai
from cp875 to IBM880
from IBM290 to IBM290
from IBM290 to IBM420
from IBM290 to x-EBCDIC-KoreanExtended
from IBM290 to IBM-Thai
from IBM290 to IBM880
from IBM420 to IBM290
from IBM420 to IBM420
from IBM420 to x-EBCDIC-KoreanExtended
from IBM420 to IBM-Thai
from IBM420 to IBM880
from IBM424 to IBM290
from IBM424 to IBM420
from IBM424 to x-EBCDIC-KoreanExtended
from IBM424 to IBM-Thai
from IBM424 to IBM880
from x-EBCDIC-KoreanExtended to IBM290
from x-EBCDIC-KoreanExtended to IBM420
from x-EBCDIC-KoreanExtended to x-EBCDIC-KoreanExtended
from x-EBCDIC-KoreanExtended to IBM-Thai
from x-EBCDIC-KoreanExtended to IBM880
from IBM-Thai to IBM290
from IBM-Thai to IBM420
from IBM-Thai to x-EBCDIC-KoreanExtended
from IBM-Thai to IBM-Thai
from IBM-Thai to IBM880
from IBM880 to IBM290
from IBM880 to IBM420
from IBM880 to x-EBCDIC-KoreanExtended
from IBM880 to IBM-Thai
from IBM880 to IBM880
from cp1025 to IBM290
from cp1025 to IBM420
from cp1025 to x-EBCDIC-KoreanExtended
from cp1025 to IBM-Thai
from cp1025 to IBM880
from IBM1026 to IBM01143
from IBM1026 to IBM278
from IBM905 to IBM01143
from IBM905 to IBM278
...