Я пытаюсь отобразить значения из CSV-файла в RDD, но я получаю следующую ошибку, потому что некоторые поля имеют нулевое значение.
Исключение в потоке "main" org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 0.0 не выполнено 1 раз, последний сбой: потерянное задание 0.0 на этапе 0.0 (TID 0, localhost, executor драйвер): java.lang.NumberFormatException: пустая строка
Ниже приведен код, который я использую.
// Load and parse the data
val data = sc.textFile("data.csv")
val parsedData = data.map(s => Vectors.dense(s.split(',').map(_.toDouble))).cache()
Есть ли способ проверить, есть ли ноль? Я думал сделать это с помощью метода try catch, но, похоже, он не работает.
val parsedData = data.map(s => {
try {
val vector = Vectors.dense(s.split(',').map(_.toDouble))
}catch{
case e:NumberFormatException => println("Nulls somewhere")
}
(vector)
})