Я довольно новичок в работе с большими данными, и я имею дело с довольно большим набором данных, который шире, чем он длинен (много столбцов, а не столько строк), и собираюсь провести анализ на фрейме данных в целом.
Вкратце , эти столбцы являются коррелированными переменными, и я собираюсь удалить любые коррелированные переменные.
По глубине
В идеале я хотел бы создать функцию, которая будет принимать набор данных в качестве фрейма данных pandas, разбивать фрейм данных на меньшие фреймы данных (скажем, на фреймы данных 1, 2, 3, 4, 5 и 6) и выполнять анализ, который выглядит при соотношении этих столбцов вместе.
Понимая, что вы не можете сделать это изолированно, я надеюсь запустить анализ этих 6 блоков, объединить их последовательно (скажем, кадры данных 1_2 объединить, затем 3_4, затем 5_6), выполнить анализ снова, объединить снова ( теперь 1_2_3, затем 4_5_6) и повторяйте процесс до тех пор, пока не будет полностью коррелирован весь набор данных.
2 вопроса:
- Как бы выглядела эта функция, чтобы объединить эти куски в больший
глыбы? (Поскольку пытаюсь сделать несколько мини-кусков одновременно)
- Помимо попыток ускорить этот анализ, как бы я мог
использовать возможности ядра Dask с помощью этого блока?