Readstream на Apache Spark с неверной схемой повторяет попытку 1830 раз - PullRequest
0 голосов
/ 19 ноября 2018

В структурированной потоковой передаче Spark, когда входящая запись из S3 не совпадает со схемой, которую я использовал с .schema(..), и если размер записи большой (у меня 397 КБ), эта запись повторяется ровно 1830 раз,проверено несколько раз.Кто-нибудь заметил это странное поведение?

1 Ответ

0 голосов
/ 22 ноября 2018

В моем случае объект s3 представлял собой массив json, и оказалось, что json-читатель spark-s3 обрабатывает каждую запись массива как отдельную запись в кадре данных spark.Таким образом, объект s3 имел 1830 элементов, поэтому один и тот же объект s3 повторяется для 1830 элементов с ошибками.Однако я не смог найти никакой официальной документации для этого поведения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...