Mutliindex DASK DataFrame для 2D DASK массива - PullRequest
0 голосов
/ 30 августа 2018

У меня есть n CSV, каждый из которых имеет идентичный формат (одинаковое k количество функций). Я надеюсь построить 2d массив dask n образец по k функциям массива dask для PCA, построения моделей и т. Д.

Я считал их в кадр данных dask, используя dd.read_csv ("* _ all_csvs.csv"), после чего мой кадр данных dask в основном просто sample, feature, feature_value. Существует ли эффективный способ преобразования мультииндексированного фрейма данных в двумерный массив данных с разбивкой n образцов по k функциям?

1 Ответ

0 голосов
/ 02 сентября 2018

Может работать что-то вроде следующего:

df = dd.read_csv('*.csv')
df = df.categorize()
df = df.get_dummies()
x = df.values

Это не проверено, поэтому вы, вероятно, столкнетесь с проблемами. Я рекомендую сначала попробовать это с Pandas и предоставить mcve для будущих вопросов.

...