Я прошел через проблемы / исправления, связанные с этим на github . У меня есть 15K столбцов, поэтому я ищу более краткое решение.
Это синтаксис, который я пробовал:
minifile_df = dd.read_csv(minifile, dtype='category', \
na_filter=False, engine='c')
Это дает мне:
ValueError: выборка недостаточно велика, чтобы включить хотя бы одну строку данных. Пожалуйста, увеличьте количество байтов в sample
в вызове до read_csv
/ read_table
Если я включу, sample=1e9
, я получу (несмотря на аргумент ключевого слова dtype
):
TypeError: объект 'float' не может быть интерпретирован как целое число
Я не хочу указывать метаданные (предложенные как лучшее решение в приведенной выше ссылке) в программе из-за большого количества столбцов.
Есть ли другой способ определить все столбцы как категорию / строку?