Мне нужна помощь с результатами dask dataframe. У меня есть датафрейм dask с 144 фреймами данных из 144 csv файлов. Я хотел бы получить максимальное значение из одного столбца этих фреймов данных и вернуть его вместе с именем папки, к которой он принадлежит. Я использовал map_patitions для получения результата, который я ищу, однако, нет идентификатора, связанного с результатом раздела, поэтому трудно применить результат для других целей. Любая помощь будет принята с благодарностью! Вот пример кода, который я использую:
ddf = dd.read_csv(f'{dir}/*/name.csv')['column 1'] # dir contains 144 folders, each with name.csv
def get_max (ddf):
return ddf.max(axis = 0)
result = ddf.map_partitions(get_max).compute()
print(result)
результат содержит значения, которые я хочу, проиндексированные как «столбец 1». Я хотел бы, чтобы имя папки (по существу, папка *) в качестве индекса. Моя конечная цель - это кадр данных с индексом имени папки или каталога и столбцом максимальных значений, возвращаемых функцией.