org.apache.spark.SparkException: задание прервано из-за сбоя этапа: сбой задачи 0 на этапе 2.0 4 раза, последний сбой: потерянное задание 0.3 на этапе 2.0 (TID 5, svr17933hw2288.hadoop.sh.ctripcorp.com , исполнитель 1): org.apache.spark.SparkException: не удалось выполнить пользовательскую функцию ($ anonfun $ createTransformFunc $ 1: (строка) => массив)
Код выглядит следующим образом:
val tokenizer = new Tokenizer().setInputCol("sendcontent").setOutputCol("words")
var wordsData = tokenizer.transform(sourDF)
val hashingTF = new HashingTF()
.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)
val featurizedData = hashingTF.transform(wordsData)
val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)
val rescaledData = idfModel.transform(featurizedData)
rescaledData.select("features", "msgid").take(3).foreach(println)