У меня есть куча текстовых документов (тысячи), которые имеют различные неустановленные кодировки. Большинство из них являются прямыми ASCII, но некоторые из них Windows-1252 или ISO 8859.
Я хотел бы преобразовать расширенный набор символов в какой-то разумный стандартный эквивалент ASCII, например,
{
'\x93' : '"', # Left smart quote
'\x94' : '"', # Right smart quote
'\xbb' : '>>', # Double greater than
'\xbc' : '1/4', # one quarter
'\xbd' : '1/2', # one half
...
}
Вместо того, чтобы создавать весь словарь самостоятельно, мне интересно, есть ли уже какой-нибудь разумный список преобразования, который кто-то составил, который я мог бы просто использовать и изменить самостоятельно?