ValueError: образец недостаточно велик, чтобы содержать хотя бы одну строку данных. Увеличьте количество байтов в `sample` - PullRequest
1 голос
/ 07 мая 2020

Я пытаюсь прочитать файл csv (2 ГБ). Поскольку размер большой, я использовал dask, но он показывает ошибку ValueError: Sample недостаточно велик для включения хотя бы одной строки данных. Пожалуйста, увеличьте количество байтов в sample в вызове до read_csv / read_table Кто-нибудь может посоветовать мне, как это сделать? Спасибо

Код:

import dask.dataframe as dd
df= dd.read_csv('file1.csv')

ошибка:

ValueError: Sample is not large enough to include at least one row of data. Please increase the number of bytes in `sample` in the call to `read_csv`/`read_table`

1 Ответ

2 голосов
/ 07 мая 2020

Ошибка означает: «Пожалуйста, включите необязательный аргумент ключевого слова sample в свой вызов read_csv, дающий значение (в байтах), которое достаточно велико для включения одной строки данных». Посмотрев на функцию docstring , вы увидите, что значение по умолчанию - 256000 байт.

Так что, возможно, попробуйте

df = dd.read_csv('file1.csv', sample=1000000)
...