Как получить доступ к значению индекса dask dataframe в map_paritions? - PullRequest
0 голосов
/ 25 мая 2019

Я пытаюсь использовать dask dataframe map_partition, чтобы применить функцию, которая обращается к значению в индексе dataframe, по очереди и создает новый столбец.

Ниже приведен код, который я пробовал.

import dask.dataframe as dd
import pandas as pd

df = pd.DataFrame(index = ["row0" , "row1","row2","row3","row4"])
df
ddf = dd.from_pandas(df, npartitions=2)

res = ddf.map_partitions(lambda df: df.assign(index_copy= str(df.index)),meta={'index_copy': 'U' })
res.compute()

Я ожидаю, что df.index будет значением индекса строки, а не всего индекса раздела, на который он ссылается. Из документа здесь это хорошо работает для столбцов, но не для индекса.

1 Ответ

1 голос
/ 25 мая 2019

что вы хотите сделать, это

df.index = ['row'+str(x) for x in df.index]

, и для этого сначала создайте свой фрейм данных pandas, а затем запустите этот код после того, как вы получите ожидаемый результат.дайте мне знать, если это работает для вас.

...