Как записать прогнозы из модели PySpark обратно в таблицу Hive / Impala? - PullRequest
0 голосов
/ 03 сентября 2018

У меня есть рабочий процесс, в котором я извлекаю данные обучения (строки 1-10M) из таблицы улья и подгоняю модель.

У меня есть другая таблица с более чем 100M строками, в которой я могу использовать функцию преобразования (прогнозирования) в mllib, но я хочу записать эти результаты непосредственно обратно в таблицу кустов.

Workflow:

training = spark.sql("select * from training_data limit 1000000")

allData = pipeline.fit(training_data).transform(training_data)

allData.cache()

rf = RF(labelCol='label', featuresCol='features',numTrees=200)

fit = rf.fit(allData)

scoring = spark.sql("select * from scoring_table")

allData_Scoring = pipeline.fit(scoring).transform(scoring)

transformed = fit.transform(allData_Scoring)

results = transformed.select(['probability', 'label'])

Я хочу записать объект результатов обратно в куст с ключом id и парой других столбцов из таблицы скоринга.

Какой лучший способ сделать это?

...