UnicodeDecodeError в пандах `read_csv` - PullRequest
       13

UnicodeDecodeError в пандах `read_csv`

1 голос
/ 02 декабря 2019

Я работаю с Наборы данных финансовых отчетов и примечаний . Следующий код хорошо работает до 2010q3:

num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii", low_memory=False)

Однако этот код не работает для этого файла (я сохранил его в Google Диске): https://drive.google.com/file/d/1i4M_UIaDLeGmAYKr4jVD_Fp3JnvZWXUS/view?usp=sharing

Я пыталсяиспользуйте file -I num.tsv для проверки кодировки. В результате получается num.tsv: text/plain; charset=us-ascii.

Я также обнаружил, что столбец dimh имеет шестнадцатеричный формат. Итак, я также пытался

num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii",low_memory=False, converters={"dimh": lambda x: int(x, 16)})

Кто-нибудь может помочь в этом вопросе?

...