Question

Я прошел через проблемы / исправления, связанные с этим на github . У меня есть 15K столбцов, поэтому я ищу более краткое решение.

Это синтаксис, который я пробовал:

 minifile_df = dd.read_csv(minifile, dtype='category', \
            na_filter=False, engine='c')

Это дает мне:

ValueError: выборка недостаточно велика, чтобы включить хотя бы одну строку данных. Пожалуйста, увеличьте количество байтов в sample в вызове до read_csv / read_table

Если я включу, sample=1e9, я получу (несмотря на аргумент ключевого слова dtype):

TypeError: объект 'float' не может быть интерпретирован как целое число

Я не хочу указывать метаданные (предложенные как лучшее решение в приведенной выше ссылке) в программе из-за большого количества столбцов.

Есть ли другой способ определить все столбцы как категорию / строку?

Dask read_csv не удалось

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Dask read_csv не удалось

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы