Я работаю с Наборы данных финансовых отчетов и примечаний . Следующий код хорошо работает до 2010q3:
num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii", low_memory=False)
Однако этот код не работает для этого файла (я сохранил его в Google Диске): https://drive.google.com/file/d/1i4M_UIaDLeGmAYKr4jVD_Fp3JnvZWXUS/view?usp=sharing
Я пыталсяиспользуйте file -I num.tsv
для проверки кодировки. В результате получается num.tsv: text/plain; charset=us-ascii
.
Я также обнаружил, что столбец dimh
имеет шестнадцатеричный формат. Итак, я также пытался
num = pd.read_csv('../zipdata/extracted/num.tsv', sep="\t", encoding="us-ascii",low_memory=False, converters={"dimh": lambda x: int(x, 16)})
Кто-нибудь может помочь в этом вопросе?