Итерация по серии dask (получение уникальных значений из серии dask в список) - PullRequest
1 голос
/ 02 июня 2019

Мне нужно перебирать уникальные значения из кадра данных dask.Я использовал .unique (), чтобы получить уникальные значения столбцов, но теперь мне дан объект dask, который я не могу использовать для итерации.Мне нужно знать, как получить эти уникальные значения из этого объекта dask в список (или что-то подобное), чтобы я мог использовать эти значения для итерации по кадру данных dask.

df = dd.read_csv('file.csv')
df.column1.unique()
for unique_value in column1_array:
    print(unique_value)

Это ошибка Iget: NotImplementedError: getitem серии поддерживается только для других объектов серии с соответствующей структурой разделов

1 Ответ

1 голос
/ 02 июня 2019

Вы можете использовать метод .compute(), чтобы преобразовать вашу серию Dask в объект серии Pandas, а затем выполнить итерацию по ней.

for x in s.compute():
    ...

См. https://docs.dask.org/en/latest/dataframe-best-practices.html#reduce-and-then-use-pandas

Есть также iteritems и iterrows методы

...