как пропустить недопустимую последовательность файлов с искрой? sc.sequenceFile (in_path) - PullRequest
0 голосов
/ 09 января 2019
conf = SparkConf().set("spark.port.maxRetries",16)

sc = SparkContext(conf=conf)

sc.sequenceFile(in_path) //this line got  java.io.EOFException (1545755455381.lzo_deflate not a SequenceFile)

В каталоге in_path есть много sequenceFile, я имею разрешение только на чтение файла, работа с недопустимым sequenceFile приведет к сбою задания spark, как пропустить недопустимый sequenceFile

Ниже указан каталог ввода

116.1 M  348.3 M  /20181226/1545753600402.lzo_deflate

97.0 M  290.9 M  /20181226/1545754236750.lzo_deflate

113.3 M  339.8 M  /20181226/1545754856515.lzo_deflate

126.3 M  378.8 M  /20181226/1545755467276.lzo_deflate

99.5 M  298.6 M  /20181226/1545756067478.lzo_deflate

102.0 M  306.0 M  /20181226/1545756699684.lzo_deflate

126.5 M  379.5 M  /20181226/1545753600402.lzo_deflate

92.9 M  278.6 M  /20181226/1545754233009.lzo_deflate

117.7 M  353.2 M  /20181226/1545754850857.lzo_deflate

0 M  0 M  /20181226/1545755455381.lzo_deflate

0 M  0 M  /20181226/1545756056457.lzo_deflate

0 M  0 M  /20181226/1545756699684.lzo_deflate

......
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...