получить имена каталогов с map_partitions в кадрах данных dask - PullRequest
1 голос
/ 21 марта 2020

Мне нужна помощь с результатами dask dataframe. У меня есть датафрейм dask с 144 фреймами данных из 144 csv файлов. Я хотел бы получить максимальное значение из одного столбца этих фреймов данных и вернуть его вместе с именем папки, к которой он принадлежит. Я использовал map_patitions для получения результата, который я ищу, однако, нет идентификатора, связанного с результатом раздела, поэтому трудно применить результат для других целей. Любая помощь будет принята с благодарностью! Вот пример кода, который я использую:

ddf = dd.read_csv(f'{dir}/*/name.csv')['column 1'] # dir contains 144 folders, each with name.csv
def get_max (ddf):
    return  ddf.max(axis = 0) 
result = ddf.map_partitions(get_max).compute()
print(result)

результат содержит значения, которые я хочу, проиндексированные как «столбец 1». Я хотел бы, чтобы имя папки (по существу, папка *) в качестве индекса. Моя конечная цель - это кадр данных с индексом имени папки или каталога и столбцом максимальных значений, возвращаемых функцией.

1 Ответ

0 голосов
/ 28 марта 2020

Я полагаю, что вы ищете ключевое слово include_path_column= для функции dask.dataframe.read_csv.

Документацию по этой функции можно посмотреть здесь: https://docs.dask.org/en/latest/dataframe-api.html#dask .dataframe.read_csv

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...