Разделите большой набор данных, объедините меньшие dfs в большие и используя Dask, чтобы ускорить процесс? - PullRequest
0 голосов
/ 23 июня 2019

Я довольно новичок в работе с большими данными, и я имею дело с довольно большим набором данных, который шире, чем он длинен (много столбцов, а не столько строк), и собираюсь провести анализ на фрейме данных в целом.

Вкратце , эти столбцы являются коррелированными переменными, и я собираюсь удалить любые коррелированные переменные.

По глубине

В идеале я хотел бы создать функцию, которая будет принимать набор данных в качестве фрейма данных pandas, разбивать фрейм данных на меньшие фреймы данных (скажем, на фреймы данных 1, 2, 3, 4, 5 и 6) и выполнять анализ, который выглядит при соотношении этих столбцов вместе.

Понимая, что вы не можете сделать это изолированно, я надеюсь запустить анализ этих 6 блоков, объединить их последовательно (скажем, кадры данных 1_2 объединить, затем 3_4, затем 5_6), выполнить анализ снова, объединить снова ( теперь 1_2_3, затем 4_5_6) и повторяйте процесс до тех пор, пока не будет полностью коррелирован весь набор данных.

2 вопроса:

  1. Как бы выглядела эта функция, чтобы объединить эти куски в больший глыбы? (Поскольку пытаюсь сделать несколько мини-кусков одновременно)
  2. Помимо попыток ускорить этот анализ, как бы я мог использовать возможности ядра Dask с помощью этого блока?
...