Поврежденные данные в приложении Spark с использованием s3a - PullRequest
0 голосов
/ 24 января 2020

Я пытаюсь загрузить некоторые файлы из S3 в задании Spark, используя aws имел разъем oop. Я вижу, что некоторые из этих файлов повреждены и имеют следующее содержимое в первой строке:

read tcp read: connection reset by peer

Остальное содержимое файла выглядит нормально. Я также вижу следующее исключение в задании spark:

com.amazonaws.thirdparty.apache.http.ConnectionClosedException: 
Premature end of Content-Length delimited message body expected: 5725520; received: 79" 

Похоже, что когда сервер отправляет сброс соединения по ошибке однорангового узла, это не интерпретируется как ошибка, а вместо этого как содержимое файла и записывается в выходной файл. Кто-нибудь знает, почему это может происходить?

...