Модель данных для использования данных переписи ABS 2016 - PullRequest
0 голосов
/ 02 ноября 2018

Я собираюсь создать хранилище демографических объектов из пакетов данных переписи ABS 2016 для использования в различных задачах машинного обучения и анализа. Во всех пакетах данные переписи содержат в общей сложности ок. 15 000 столбцов (объектов), содержащих значения с плавающей точкой. Мне удалось получить данные в виде одной большой таблицы в формате паркета. Я пытался загрузить и обработать данные в Spark, но Spark выдает разные исключения каждый раз, когда я запускаю какое-либо задание анализа, поэтому я предполагаю, что это слишком много столбцов.

Каков наилучший способ моделирования данных в нескольких таблицах, возможно, для эффективной обработки этих функций в Spark? Варианты использования для этого хранилища функций - найти 100-200 функций, наиболее коррелирующих / имеющих наивысший NMI с данным внутренним показателем компании, и использовать их для прогнозной или описательной аналитики.

...