Я использую Dask Distirbuted, статический кластер (1 рабочий).Набор данных довольно мал (1 МБ) и разделен на Hive.После чтения данных с s3 я пытаюсь позвонить .describe().compute()
, но получаю следующую ошибку:
TypeError: Series cannot perform the operation **
Есть идеи или предложения?Не думайте, что из-за данных, потому что я использовал .head()
, и это сработало.
Пример кода:
test = df.read_parquet('s3://bucket/test', engine='pyarrow')
test.head() # works
test1 = test.describe()
test1.compute() # here the error
Спасибо!