Как удалить запись из Spark DataSet - PullRequest
0 голосов
/ 28 мая 2018

Я создаю DataSet следующим образом:

SparkSession spark = JavaSparkSessionSingleton.getInstance(javaStreamingContext.sparkContext().getConf());
Dataset<Row> journyDF = spark.createDataFrame(journyDataJavaRDD, JournyData.class);

"journyDF" имеет столбец "долгота".Если значение этого столбца равно 0, то я хочу удалить эту строку из «journyDF».(Пропустить строку из дальнейшей обработки)

Есть ли способ, который может это сделать?

1 Ответ

0 голосов
/ 29 мая 2018

Самый простой подход выглядит как Dataset.filter(), поэтому что-то вроде

Dataset<Row> journyDF = spark.createDataFrame(journyDataJavaRDD, JournyData.class).filter($"longitude" != 0);

или, возможно,

[...].filter(col("longitude").notEqual(0));

(Вы не указываете тип столбца, поэтомувам может понадобиться настроить это.)

...