У меня очень большой (2,5 ГБ) текстовый файл с кириллическими символами в различных кодировках, включая Windows-1251:
= D0 = A0 = D0 = B2 = D0 = B8 = D1 = 81 = D1 = 8C = D0 = B2 = D0 = B0 = D1 = 82 = D0 = B0 = D0 = BA = D1 = 83 = D0 = BD =
= D0 = B0 = C2 = AB = D0 = 9F = D0 = B5 = D1 = 80 = D1 = 88 = D0 = B8 = D0 = BD = D0 = B3 = D0 = B5 = C2 = BB
Я уже пробовал .encode () и .decode () с различными комбинациями кодировок, но я не могу получить текст для чтения. Я также пытался читать в двоичном режиме.
with open('myfile.mbox', 'r') as f:
unreadable_str = f.readline()
unreadable_str.encode('WINDOWS-1251').decode('utf-8')
Я думал, что она закодирует строку в байты, используя кодировку Windows, а затем вернет ее как читаемый Unicode, но вместо этого она всегда выводит одну и ту же строку.