Существует ли готовый словарь для перевода символов ISO 8859-1 / windows-1252 в стандартные эквиваленты ASCII? - PullRequest
1 голос
/ 04 апреля 2019

У меня есть куча текстовых документов (тысячи), которые имеют различные неустановленные кодировки. Большинство из них являются прямыми ASCII, но некоторые из них Windows-1252 или ISO 8859.

Я хотел бы преобразовать расширенный набор символов в какой-то разумный стандартный эквивалент ASCII, например,

{
   '\x93' : '"',        # Left smart quote
   '\x94' : '"',        # Right smart quote
   '\xbb' : '>>',       # Double greater than
   '\xbc' : '1/4',      # one quarter
   '\xbd' : '1/2',      # one half
   ...
}

Вместо того, чтобы создавать весь словарь самостоятельно, мне интересно, есть ли уже какой-нибудь разумный список преобразования, который кто-то составил, который я мог бы просто использовать и изменить самостоятельно?

...