У меня есть некоторые данные приблизительного размера 250 МБ.
Я хочу загрузить данные и преобразовать их в карту
class MyData implements Serializable {
private Map<String, List<SomeObject>> myMap;
MyData(SparkSession sparkSession, String inputPath) {
Dataset<Klass> ds = sparkSession.read().json(inputPath).as(Encoders.bean(Klass.class));
myMap = ds.collectAsList().stream().collect(Collectors.toMap(
Klass::getField1(),
Klass::getField2()
)
);
}
}
Это моя конфигурация искрового исполнения
--master yarn --deploy-mode cluster --executor-cores 2 --num-executors 200 --executor-memory 10240M
Разве не рекомендуется конвертировать набор данных в список / карту? Или это проблема конфигурации? Или проблема с кодом?