SparkR - ошибка в db.readTypedVector (con, colType, numRows): неподдерживаемый тип для десериализации: «некоторое сообщение из одного столбца» - PullRequest
0 голосов
/ 07 ноября 2018

У меня есть sparkDataFrame, и я запускаю функцию, используя gapplyCollect. Очень часто это происходит с ошибкой ниже

Error in handleErrors(returnStatus, conn) : 
  org.apache.spark.SparkException: Job aborted due to stage failure: Task 25 in stage 694.0 failed 4 times, most recent failure: Lost task 25.3 in stage 694.0 (TID 24447, 10.139.64.4, executor 0): org.apache.spark.SparkException: R computation failed with
 Error in db.readTypedVector(con, colType, numRows) : 
  Unsupported type for deserialization: Some message from one of the columns. Calls: <Anonymous> -> lapply -> lapply -> FUN -> db.readTypedVector
Execution halted
    at org.apache.spark.api.r.RRunner.compute(RRunner.scala:108)
    at org.apache.spark.sql.execution.FlatMapGroupsInRExec$$anonfun$14.apply(objects.scala:455)
    at org.apache.spark.sql.execution.FlatMapGroupsInRExec$$anonfun$14.apply(objects.scala:432)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:842)
    at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:842)

Есть мысли о том, что может быть не так? Сообщение короткое, но имеет символ [], :: и -. Если я урежу сообщение до 10 символов, это сработает. Я использую блоки данных Azure.

...