Моя платформа - spark 2.1.0, использующая язык Python.
Теперь у меня есть около 100 моделей мультиклассификации случайных лесов, я сохранил их в HDFS. В HDFS также сохранено 100 наборов данных.Я хочу прогнозировать набор данных с использованием соответствующей модели. Если модели и наборы данных находятся в кэш-памяти, прогноз будет более чем в 10 раз быстрее.
Но я не знаю, как кэшировать модели, потому что модель неRDD или Dataframe.
Спасибо!