java.lang.ClassCastException: не может назначить экземпляр scala.collection.immutable.List $ SerializationProxy - PullRequest
0 голосов
/ 07 мая 2019
  1. Я обрабатываю csv-файл из java-приложения Spring Batch для очистки очистки.
  2. очищены файлы записи в паркет в кластере.
  3. получение исключения сериализации.

Причина: java.lang.ClassCastException: невозможно назначить экземпляр scala.collection.immutable.List $ SerializationProxy для поля org.apache.spark.rdd.RDD.org $ apache $ spark $ rdd $ RDD $$ dependencies_ из введите scala.collection.Seq в экземпляре org.apache.spark.rdd.MapPartitionsRDD at java.io.ObjectStreamClass $ FieldReflector.setObjFieldValues ​​(ObjectStreamClass.java:2287)

1 Ответ

0 голосов
/ 30 мая 2019

У меня такое же сообщение об ошибке при запуске этого кода:

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}
import org.apache.spark.ml.clustering.LDA
import org.apache.spark.sql.functions.udf
import scala.collection.mutable.WrappedArray

val txt = Array("A B B C", "A B D D", "A C D")
val txtDf     = spark.sparkContext.parallelize(txt).toDF("txt")
val txtDfSplit = txtDf.withColumn("txt", split(col("txt"), " "))

// val txtDfSplit = df.withColumn("txt", split(col("txt"), " "))

// create sparse vector with the number 
// of occurrences of each word using CountVectorizer
val cvModel = new CountVectorizer().setInputCol("txt").setOutputCol("features").setVocabSize(4).setMinDF(2).fit(txtDfSplit)

val txtDfTrain = cvModel.transform(txtDfSplit)
txtDfTrain.show(false)

выдает эту ошибку:

org.apache.spark.SparkException: задание прервано из-за сбоя этапа: Задача 9 на этапе 1.0 провалилась 4 раза, последний сбой: потерянная задача 9.3 на этапе 1.0 (TID 25, somehostname.domain, исполнитель 1): java.lang.ClassCastException: не может назначить экземпляр scala.collection.immutable.List $ SerializationProxy для поля org.apache.spark.rdd.RDD.org $ apache $ spark $ rdd $ RDD $$ dependencies_ из введите scala.collection.Seq в случае org.apache.spark.rdd.MapPartitionsRDD

Я просматривал различные страницы, описывающие эту ошибку, и кажется, что это какой-то конфликт версий. Код работает в IntelliJ (автономно). Я получаю сообщение об ошибке при отправке приложения в Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...