Искровой кластер AWS EMR - исключение не найдено - PullRequest
0 голосов
/ 23 октября 2018

Я новичок в EMR.Я попытался разобрать файл 500 ГБ в спарк.Я установил искровой кластер в EMR с 32 узлами с установленными Spark, Hadoop и Zeppelinфайл в с3.Когда я попытался с меньшим файлом, он работает хорошо (тот же код и то же место s3), но с файлом 500 ГБ я получил следующую ошибку.кто-нибудь может мне помочь?

Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-4268307265600611017.py", line 367, in <module>
raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
File "/tmp/zeppelin_pyspark-4268307265600611017.py", line 360, in <module>
exec(code, _zcUserQueryNameSpace)
File "<stdin>", line 3, in <module>
File "/usr/lib/spark/python/pyspark/rdd.py", line 1073, in count
return self.mapPartitions(lambda i: [sum(1 for _ in i)]).sum()
File "/usr/lib/spark/python/pyspark/rdd.py", line 1064, in sum
return self.mapPartitions(lambda x: [sum(x)]).fold(0, operator.add)
File "/usr/lib/spark/python/pyspark/rdd.py", line 935, in fold
vals = self.mapPartitions(func).collect()
File "/usr/lib/spark/python/pyspark/rdd.py", line 834, in collect
sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", 
line 1257, in __call__
answer, self.gateway_client, self.target_id, self.name)
File "/usr/lib/spark/python/pyspark/sql/utils.py", line 63, in deco
return f(*a, **kw)
File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 
328, in get_return_value
format(target_id, ".", name), value)
Py4JJavaError: An error occurred while calling 
z:org.apache.spark.api.python.PythonRDD.collectAndServe.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 
in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 
(TID 3, ip-10-0-12-220.ec2.internal, executor 19): 
java.lang.RuntimeException: java.io.FileNotFoundException:   
/mnt1/yarn/usercache/zeppelin/filecache/13/
__spark_libs__8980026775986932451.zip 
/hadoop-common-2.8.4-amzn-1.jar (No such file or directory)
at 
org.apache.hadoop.conf.Configuration.loadResource(Configuration.java:2854)
at 
org.apache.hadoop.conf.Configuration.loadResources(Configuration.java:2696)
at org.apache.hadoop.conf.Configuration.getProps(Configuration.java:2579)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:1257)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:1229) 

... 30 more
ERROR
Took 1 min 28 sec. Last updated by anonymous at October 23 2018, 6:00:06 PM.
...