VectorAssembler Трансформатор в искровой ML висит - PullRequest
0 голосов
/ 25 сентября 2019

У меня был конвейер ML, который долго зависал без завершения, поэтому я разделил шаги и проверил вывод каждого шага.я обнаружил, что VectorAssembler долгое время зависает на небольшом наборе данных, когда я запускаю шаг show (), он зависает навсегда.я также проверил, что проблема не вызвана из-за нулевых значений, выполнив вменение с 0.

df2_impute = df2.na.fill(0)
continuousCols = numeric_columns+various_cols+additionalFlds
HashedInputs = [c + "_hashed" for c in categorical_columns] +[d for d in continuousCols if d not in 
               [f for f in date_columns]]
assembler = VectorAssembler(inputCols=HashedInputs,outputCol="features")
df3 =assembler.transform(df2_impute)
df3.show()

.Непрерывные коллы являются числовымичто может быть причиной этого?

...