conf = SparkConf().set("spark.port.maxRetries",16)
sc = SparkContext(conf=conf)
sc.sequenceFile(in_path) //this line got java.io.EOFException (1545755455381.lzo_deflate not a SequenceFile)
В каталоге in_path есть много sequenceFile, я имею разрешение только на чтение файла, работа с недопустимым sequenceFile приведет к сбою задания spark, как пропустить недопустимый sequenceFile
Ниже указан каталог ввода
116.1 M 348.3 M /20181226/1545753600402.lzo_deflate
97.0 M 290.9 M /20181226/1545754236750.lzo_deflate
113.3 M 339.8 M /20181226/1545754856515.lzo_deflate
126.3 M 378.8 M /20181226/1545755467276.lzo_deflate
99.5 M 298.6 M /20181226/1545756067478.lzo_deflate
102.0 M 306.0 M /20181226/1545756699684.lzo_deflate
126.5 M 379.5 M /20181226/1545753600402.lzo_deflate
92.9 M 278.6 M /20181226/1545754233009.lzo_deflate
117.7 M 353.2 M /20181226/1545754850857.lzo_deflate
0 M 0 M /20181226/1545755455381.lzo_deflate
0 M 0 M /20181226/1545756056457.lzo_deflate
0 M 0 M /20181226/1545756699684.lzo_deflate
......