Я читаю CSV-файл, это происходит из-за некоторых следов из сетевого протокола, шестнадцатеричных символов и обычного смешанного.
Я пытаюсь прочитать .csv, и я пробовал несколько кодировок: utf-8, cp1252, latin1 ...
Для latin1 :
UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ xb0' в позиции 51: порядковый номер не в диапазоне (128)
Для utf-8 :
UnicodeDecodeError: кодек «utf8» не может декодировать байт 0xb0 в позиции 51: недопустимый начальный байт
Для cp1252 :
UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ xb0' в позиции 51: порядковый номер не в диапазоне (128)
Используемый код:
df=pd.read_csv(file,sep='`',error_bad_lines=False,encoding='cp1252',names=colnames,quotechar='"')
Я не большой специалист по кодированию, но я хотел бы знать, как решить эту проблему.
Узнать текущую кодировку файла CSV, который я читаю?
Существует ли очень разрешающий кодек, который принимает практически все?
Спасибо.