Я использую spark для фильтрации данных из фрейма данных JavaRDD.
У него около 2900000 записей, из которых мне нужно отфильтровать 29000.
Нет проблем с памятью, так как я использую супер-сервер с достаточным объемом памяти.
Ниже приведен код
JavaRDD<SomeClass> sample = dataframe.javaRDD().map{..........};
Dataset<Row> data= spark.createDataFrame(sample.rdd(), SomeClass.class).filter(col("column1").isNotNull());
Он просто висит на 2-й строке часами. Когда я попытался проверить точку отладки, приостановив отладку, я смог обнаружить, что код застрял на sun.misc.Unsafe.park.
Я проверил похожие ответы, ни один не помог.
Также не используется процессор. И не может быть никаких проблем с памятью, так как я использую супер сервер.