как кешировать случайные модели леса в искре - PullRequest
0 голосов
/ 27 мая 2018

Моя платформа - spark 2.1.0, использующая язык Python.

Теперь у меня есть около 100 моделей мультиклассификации случайных лесов, я сохранил их в HDFS. В HDFS также сохранено 100 наборов данных.Я хочу прогнозировать набор данных с использованием соответствующей модели. Если модели и наборы данных находятся в кэш-памяти, прогноз будет более чем в 10 раз быстрее.

Но я не знаю, как кэшировать модели, потому что модель неRDD или Dataframe.

Спасибо!

1 Ответ

0 голосов
/ 27 мая 2018

TL; DR Просто cache данных, если они когда-либо повторно используются вне процесса прогнозирования, а если нет, вы даже можете пропустить это.

RandomForestModel - локальный объектне подкрепленные распределенными структурами данных, нет необходимости пересчитывать DAG, и процесс прогнозирования является простым заданием только для карт.Поэтому модель не может быть кэширована, и даже если бы она могла, операция была бы бессмысленной.

См. Также (Почему) нам нужно вызывать кэш или сохранять его на СДР

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...