У меня такое же сообщение об ошибке при запуске этого кода:
import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
import org.apache.spark.ml.clustering.LDA
import org.apache.spark.sql.functions.udf
import scala.collection.mutable.WrappedArray
val txt = Array("A B B C", "A B D D", "A C D")
val txtDf = spark.sparkContext.parallelize(txt).toDF("txt")
val txtDfSplit = txtDf.withColumn("txt", split(col("txt"), " "))
// val txtDfSplit = df.withColumn("txt", split(col("txt"), " "))
// create sparse vector with the number
// of occurrences of each word using CountVectorizer
val cvModel = new CountVectorizer().setInputCol("txt").setOutputCol("features").setVocabSize(4).setMinDF(2).fit(txtDfSplit)
val txtDfTrain = cvModel.transform(txtDfSplit)
txtDfTrain.show(false)
выдает эту ошибку:
org.apache.spark.SparkException: задание прервано из-за сбоя этапа:
Задача 9 на этапе 1.0 провалилась 4 раза, последний сбой: потерянная задача 9.3
на этапе 1.0 (TID 25, somehostname.domain, исполнитель 1):
java.lang.ClassCastException: не может назначить экземпляр
scala.collection.immutable.List $ SerializationProxy для поля
org.apache.spark.rdd.RDD.org $ apache $ spark $ rdd $ RDD $$ dependencies_ из
введите scala.collection.Seq в случае
org.apache.spark.rdd.MapPartitionsRDD
Я просматривал различные страницы, описывающие эту ошибку, и кажется, что это какой-то конфликт версий. Код работает в IntelliJ (автономно). Я получаю сообщение об ошибке при отправке приложения в Spark.