Question

В структурированной потоковой передаче Spark, когда входящая запись из S3 не совпадает со схемой, которую я использовал с .schema(..), и если размер записи большой (у меня 397 КБ), эта запись повторяется ровно 1830 раз,проверено несколько раз.Кто-нибудь заметил это странное поведение?

Naveen Cotha · Answer 1 · 22 ноября 2018

В моем случае объект s3 представлял собой массив json, и оказалось, что json-читатель spark-s3 обрабатывает каждую запись массива как отдельную запись в кадре данных spark.Таким образом, объект s3 имел 1830 элементов, поэтому один и тот же объект s3 повторяется для 1830 элементов с ошибками.Однако я не смог найти никакой официальной документации для этого поведения.

Readstream на Apache Spark с неверной схемой повторяет попытку 1830 раз

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Readstream на Apache Spark с неверной схемой повторяет попытку 1830 раз

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы