Стохастичность модели случайного леса в Spark ML - PullRequest
0 голосов
/ 23 сентября 2019

У меня есть вопрос о стохастичности реализации Random Forest в Spark ML.Что я наблюдаю, так это то, что для двух моделей, обученных на отдельных тренировочных заездах с одинаковыми параметрами и одним и тем же посевным материалом, результаты оценки немного отличаются.Если модель обучается на небольшом наборе обучающих данных, результаты совпадают точно, но для большого набора обучающих данных результаты будут другими.Это ожидается?Я предполагаю, что результаты отличаются, потому что обучение происходит на распределенном кластере EMR, и это является причиной наблюдаемой случайности.

Так, например, предполагая фиксированный набор параметров P

Time T1: Model M1
Time T2: Model M2

Теперь я запускаю каждую модель на одном и том же наборе данных D:

R1 = M1(D)
R2 = M2(D)

, получая результаты R1, R2 Я бы ожидал

R1 = R2

точно, но это не так,

...