Предположим, что мы обучили модель Spark ALS некоторому (текущему) количеству данных:
val als = new ALS()
.setMaxIter(maxIterations)
...
val alsModel = als.fit(trainData)
Чем мы можем применить ее к некоторым данным:
alsModel.setColdStartStrategy("drop")
val dfPredictions = alsModel.transform(testData)
val dfRecommendations = alsModel.recommendForAllUsers(10)
Но в моей ситуации Данные о доходах каждый день большими порциями. Доходы новых пользователей, продуктов и рейтингов постоянно.
Каков наилучший способ обработки новых входящих данных? Модель Retrain каждые N
дней?