Обработка пропущенных данных при чтении из s3 в спарк - PullRequest
0 голосов
/ 23 декабря 2018

Я использую кодировщики для чтения данных из s3 в DF, но несколько полей, указанных в объекте кодировщика, отсутствуют во входных данных, и я получаю

User class threw exception: org.apache.spark.sql.AnalysisException: cannot resolve

Как я могу справиться с этимсценарий?

Encoder<Entity> sEncoder = Encoders.bean(Entity.class);
Dataset<Entity> sAggregates =sparkSession.read().json(inputPaths.get(0).as(sEncoder);
...