Как повторно использовать RDD для цикла? - PullRequest
0 голосов
/ 01 ноября 2018

В моей домашней работе есть Генетический алгоритм и Spark Random Forest

И я хочу вычислить точность искрового случайного леса, чтобы он соответствовал каждому человеку в ГА.

Итак, , когда рассчитывать физическую форму, я пишу это на python:

for i in range(popsize):
      .....
     # sc :SparkContext   chrom[i]: gene in GA
     fitness[i] = cal_obj_value(sc,chrom[i])
     ...

def cal_obj_value(sc,chrom):
   ...
   # load data 
   data =MLUtils.loadLibSVMFile(sc,'sample_libsvm_data.txt')
   ...

Таким образом, одни и те же данные будут загружаться в СДР много раз

Как мне оптимизировать этот код.

Есть ли какая-либо полезность, если я пытаюсь "data.cache"?

загружать ли data.cache или нет в следующем цикле for


Я давно ищу в сети. Но бесполезно. Пожалуйста, помогите или попробуйте дать некоторые идеи, как этого добиться.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...