Question

В моей домашней работе есть Генетический алгоритм и Spark Random Forest

И я хочу вычислить точность искрового случайного леса, чтобы он соответствовал каждому человеку в ГА.

Итак, ， когда рассчитывать физическую форму, я пишу это на python:

for i in range(popsize):
      .....
     # sc :SparkContext   chrom[i]: gene in GA
     fitness[i] = cal_obj_value(sc,chrom[i])
     ...

def cal_obj_value(sc,chrom):
   ...
   # load data 
   data =MLUtils.loadLibSVMFile(sc,'sample_libsvm_data.txt')
   ...

Таким образом, одни и те же данные будут загружаться в СДР много раз

Как мне оптимизировать этот код.

Есть ли какая-либо полезность, если я пытаюсь "data.cache"?

загружать ли data.cache или нет в следующем цикле for

Я давно ищу в сети. Но бесполезно. Пожалуйста, помогите или попробуйте дать некоторые идеи, как этого добиться.

Как повторно использовать RDD для цикла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как повторно использовать RDD для цикла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы