В моей домашней работе есть Генетический алгоритм и Spark Random Forest
И я хочу вычислить точность искрового случайного леса, чтобы он соответствовал каждому человеку в ГА.
Итак, , когда рассчитывать физическую форму, я пишу это на python:
for i in range(popsize):
.....
# sc :SparkContext chrom[i]: gene in GA
fitness[i] = cal_obj_value(sc,chrom[i])
...
def cal_obj_value(sc,chrom):
...
# load data
data =MLUtils.loadLibSVMFile(sc,'sample_libsvm_data.txt')
...
Таким образом, одни и те же данные будут загружаться в СДР много раз
Как мне оптимизировать этот код.
Есть ли какая-либо полезность, если я пытаюсь "data.cache"?
загружать ли data.cache или нет в следующем цикле for
Я давно ищу в сети. Но бесполезно.
Пожалуйста, помогите или попробуйте дать некоторые идеи, как этого добиться.