Я устанавливаю потоковую передачу с искрой, где данные будут считываться из корзины S3, и будет определена потоковая передача в приложение. Однако запрос возвращает ошибку при чтении JSON в столбцах данных.
Например, если я начну потоковую передачу как
val stream = spark.readStream.format("delta").load("my_path").where("apply condition")
И затем применить withWatermark
и группу, я получаю ошибку
com.fasterxml.jackson.databind.JsonMappingException: Can not construct instance of com.databricks.sql.transaction.tahoe.actions.CommitInfo: no suitable constructor found, can not deserialize from Object value (missing default constructor or creator, or perhaps need to add/enable type information?)
По сути, в пределах where
я ограничиваю данные не более чем порогом, чтобы уменьшить их размер (если я этого не сделаю, у меня ошибка памяти).