У меня есть sparkDataFrame, и я запускаю функцию, используя gapplyCollect
. Очень часто это происходит с ошибкой ниже
Error in handleErrors(returnStatus, conn) :
org.apache.spark.SparkException: Job aborted due to stage failure: Task 25 in stage 694.0 failed 4 times, most recent failure: Lost task 25.3 in stage 694.0 (TID 24447, 10.139.64.4, executor 0): org.apache.spark.SparkException: R computation failed with
Error in db.readTypedVector(con, colType, numRows) :
Unsupported type for deserialization: Some message from one of the columns. Calls: <Anonymous> -> lapply -> lapply -> FUN -> db.readTypedVector
Execution halted
at org.apache.spark.api.r.RRunner.compute(RRunner.scala:108)
at org.apache.spark.sql.execution.FlatMapGroupsInRExec$$anonfun$14.apply(objects.scala:455)
at org.apache.spark.sql.execution.FlatMapGroupsInRExec$$anonfun$14.apply(objects.scala:432)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:842)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:842)
Есть мысли о том, что может быть не так?
Сообщение короткое, но имеет символ [], :: и -. Если я урежу сообщение до 10 символов, это сработает.
Я использую блоки данных Azure.