У меня есть рабочий процесс, в котором я извлекаю данные обучения (строки 1-10M) из таблицы улья и подгоняю модель.
У меня есть другая таблица с более чем 100M строками, в которой я могу использовать функцию преобразования (прогнозирования) в mllib, но я хочу записать эти результаты непосредственно обратно в таблицу кустов.
Workflow:
training = spark.sql("select * from training_data limit 1000000")
allData = pipeline.fit(training_data).transform(training_data)
allData.cache()
rf = RF(labelCol='label', featuresCol='features',numTrees=200)
fit = rf.fit(allData)
scoring = spark.sql("select * from scoring_table")
allData_Scoring = pipeline.fit(scoring).transform(scoring)
transformed = fit.transform(allData_Scoring)
results = transformed.select(['probability', 'label'])
Я хочу записать объект результатов обратно в куст с ключом id и парой других столбцов из таблицы скоринга.
Какой лучший способ сделать это?