Sumit Gulati 23 декабря 2018 37

Обработка пропущенных данных при чтении из s3 в спарк

Sumit Gulati / 23 декабря 2018

Я использую кодировщики для чтения данных из s3 в DF, но несколько полей, указанных в объекте кодировщика, отсутствуют во входных данных, и я получаю

User class threw exception: org.apache.spark.sql.AnalysisException: cannot resolve

Как я могу справиться с этимсценарий?

Encoder<Entity> sEncoder = Encoders.bean(Entity.class);
Dataset<Entity> sAggregates =sparkSession.read().json(inputPaths.get(0).as(sEncoder);

...

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.