Я собираюсь создать хранилище демографических объектов из пакетов данных переписи ABS 2016 для использования в различных задачах машинного обучения и анализа. Во всех пакетах данные переписи содержат в общей сложности ок. 15 000 столбцов (объектов), содержащих значения с плавающей точкой. Мне удалось получить данные в виде одной большой таблицы в формате паркета. Я пытался загрузить и обработать данные в Spark, но Spark выдает разные исключения каждый раз, когда я запускаю какое-либо задание анализа, поэтому я предполагаю, что это слишком много столбцов.
Каков наилучший способ моделирования данных в нескольких таблицах, возможно, для эффективной обработки этих функций в Spark?
Варианты использования для этого хранилища функций - найти 100-200 функций, наиболее коррелирующих / имеющих наивысший NMI с данным внутренним показателем компании, и использовать их для прогнозной или описательной аналитики.