Я хочу определить кодировку этих видео - PullRequest
0 голосов
/ 02 августа 2020

У меня есть куча видео, которые я скачал 20 лет назад go. Я полагаю, что на веб-сайте они были на японском языке. Мой P C в то время не понимал символы Юникода, и я считаю, что загрузил их с помощью Download Accelerator Plus! Таким образом, все заголовки видео выглядят как смесь символов в кодировке ASCII и URLE

Есть ли способ вернуть эти заголовки? Вот несколько примеров:

% ec †% a1% ecŠ% b9% ec „% a0.avi % ea% b0 •% ec% a2…% ea% b5% a c,% ec †% ec % a3% bc% ed ™ ˜.avi % ea% b5% ac% ec% a2…% eb% a7Œ.avi % ecœ% a4% ec% b0% bd% ec% b c .avi % ea% b6Œ% eb% af% bc% ec% a3% b c (% e2˜…% e2˜…) .avi

Я не помню URL-адрес, поэтому я не могу проверить веб-архивы

Любой ввод приветствуется.

Спасибо

1 Ответ

1 голос
/ 03 августа 2020

Как вы все это переводили?

Сначала предположим, что UTF-8 как 0xec, 0xed или 0xea - первые байты трехбайтовые последовательности UTF-8; затем

  • преобразует каждый символ в кодировке URL в его байтовое значение (например, %a1 в 0xa1), а
  • принимает значения ANSI 1252 байта для каждого буквального символа, например †Š•…™˜Œœ,().

Тогда у вас есть последовательность байтов UTF-8 для всей строки, и вы можете просто ее декодировать.

Исключения :

  • отсутствующий символ в строке # 17 (строка из двух символов %ec† должна быть преобразована в трехбайтовую последовательность, добавлена ​​0x81);
  • то же самое в строке # 19 (строка из двух символов %ec%bc следует преобразовать в трехбайтовую последовательность).

Пример (ручное преобразование, исключения обозначены ↑↑↑↑ в следующих байтовых последовательностях, добавлено 0x81) :

16 0xec,134,0xa1,0xec,138,0xb9,0xec,132,0xa0
송승선
17 0xea,0xb0,149,0xec,0xa2,133,0xea,0xb5,0xac,0x2c,0x20,0xec,134,0x81,0xec,0xa3,0xbc,0xed,153,152
강종구, 솁주환                                                    ↑↑↑↑
18 0xea,0xb5,0xac,0xec,0xa2,133,0xeb,0xa7,140
구종만
19 0xec,156,0xa4,0xec,0xb0,0xbd,0xec,0xbc,0x81
윤창켁                                     ↑↑↑↑   
20 0xea,0xb6,140,0xeb,0xaf,0xbc,0xec,0xa3,0xbc,0x20,0x28,0xe2,152,133,0xe2,152,133,0x29
권민주 (★★)

Переводчик Google :

обнаружил корейский

...