Py4JJavaError: произошла ошибка .spark.python.PythonRDD.collectAndServe Задание прервано - PullRequest
0 голосов
/ 19 мая 2018
rdd_data = sc.parallelize([ list(r)[2:-1] for r in data.itertuples()])  
rdd_data.count()

при использовании автономного кластера я столкнулся со следующей ошибкой.Windows 7 python 3.6

выдает ошибку:

~ \ Anaconda2 \ envs \ py36 \ lib \ site-packages \ py4j \ protocol.py в get_return_value (ответ, gateway_client, target_id, имя) 318 поднять Py4JJavaError (319 "Произошла ошибка при вызове {0} {1} {2}. \ n". -> 320 формат (target_id, ".", name), значение) 321 остальное: 322 поднятьPy4JError (

Py4JJavaError: Произошла ошибка при вызове z: org.apache.spark.api.python.PythonRDD.collectAndServe.: Org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 вЭтап 0.0 не выполнялся 1 раз, последний сбой: Потерянная задача 0.0 на этапе 0.0 (TID 0, localhost, драйвер исполнителя): org.apache.spark.SparkException: рабочий Python не подключился вовремя в org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker (PythonWorkerFactory.scala: 138) при org.apache.spark.api.python.PythonWorkerFactory.create (PythonWorkerFactory.scala: 67) в org.apache.spark.SparkEnv.createPythonWorker (SparkEnv.scala: 117) в org.apache.spark.api.python.PythonRunner.compute (PythonRDD.scala: 128) в org.apache.spark.api.python.PythonRDD.compute (PythonRDD.scala: 63) в org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD).scala: 323) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 287) в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 87) в org.apache.spark.scheduler.Task.run (Task.scala: 108) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 338) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) вjava.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) в java.lang.Thread.run (Thread.java:748) Причина: java.net.SocketTimeoutException: Принять тайм-аут на java.net.DualStackPlainSocketImpl.waitForNewConnection (собственный метод) в java.net.DualStackPlainSocketImpl.socketAccept (DualStackPlainSocketImpl.java:135) в java.net.AbstractPlainSocketImpl.accept.mpl.jljj.jpg199) на java.net.ServerSocket.implAccept (ServerSocket.java:545) на java.net.ServerSocket.accept (ServerSocket.java:513) на org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker (PythonWorker: PythonWorker133) ... еще 12

Отслеживание стека драйверов: org.apache.spark.scheduler.DAGScheduler.org $ apache $ spark $ scheduler $ DAGScheduler $$ failJobAndIndependentStages (DAGScheduler.scala: 1517) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler.scala: 1505) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler.scala: 1504) в scala..mutable.ResizableArray $ class.foreach (ResizableArray.scala: 59) в scala.collection.mutable.ArrayBuffer.foreach (ArrayBuffer.scala: 48) в org.apache.spark.scheduler.DAGScheduler.abortStage (DAGScheduler.scala: 150) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ handleTaskSetFailed $ 1.apply (DAGScheduler.scala: 814) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ handleTaskSetFailed $ 1.apply (DAGScheduler.scala: 814) в scala.Option.foreach (Option.scala: 257) в org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed (DAGScheduler.scala: 814) в org.apache.spark.schedulerEventS.doOnReceive (DAGScheduler.scala: 1732) при org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive (DAGScheduler.scala: 1687) при org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive (DAGScheduler.scala: тысяча шестьсот семьдесят шесть) в орг.apache.spark.util.EventLoop $$ anon $ 1.run (EventLoop.scala: 48) вorg.apache.spark.scheduler.DAGScheduler.runJob (DAGScheduler.scala: 630) в org.apache.spark.SparkContext.runJob (SparkContext.scala: 2029) в org.apache.spark.SparkContext.runJob2050) в org.apache.spark.SparkContext.runJob (SparkContext.scala: 2069) в org.apache.spark.SparkContext.runJob (SparkContext.scala: 2094) в org.apache.spark.rdd.RDD $$ anonfun $собрать $ 1.apply (RDD.scala: 936) в org.apache.spark.rdd.RDDOperationScope $ .withScope (RDDOperationScope.scala: 151) в org.apache.spark.rdd.RDDOperationScope $ .withScope (RDDOperationScope.scala: 112) в org.apache.spark.rdd.RDD.withScope (RDD.scala: 362) в org.apache.spark.rdd.RDD.collect (RDD.scala: 935) в org.apache.spark.api.python.PythonRDD $ .collectAndServe (PythonRDD.scala: 467) по адресу org.apache.spark.api.python.PythonRDD.collectAndServe (PythonRDD.scala) по адресу sun.reflect.NativeMethodAccessorImpl.inmp.hoveNoNive.NoK(NativeMethodAccessorImpl.java:62) в sun.reflect.DelegatingMethodAccessorImpl.invoke (DelegatingMethodAccessorImpl.java:43) в java.lang.reflect.Method.invoke (Method.java:498) в py4j.reflection.MethodInvoker.invoke (MethodInvoker.java:244) в py4j.voinflectionR(ReflectionEngine.java:357) в py4j.Gateway.invoke (Gateway.java:280) в py4j.commands.AbstractCommand.invokeMethod (AbstractCommand.java:132) в py4j.commands.CallCommand.execute (CallCommand.java:79)в py4j.GatewayConnection.run (GatewayConnection.java:214) в java.lang.Thread.run (Thread.java:748). Причина: org.apache.spark.SparkException: рабочий Python не подключился назад во времени в org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker (PythonWorkerFactory.scala: 138) при org.apache.spark.api.python.PythonWorkerFactory.create (PythonWorkerFactory.scala: 67) в org.apache.spark.SparkEnv.createPythonWorker (SparkEnv.scala: 117) в org.apache.spark.api.python.PythonRunner.compute (PythonRDD.scala: 128) в org.apache.spark.api.python.PythonRDD.compute (PythonRDD.scala: 63) в илиg.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 323) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 287) в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 87) в org.apache.spark.scheduler.Task.run (Task.scala: 108) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 338) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) ... еще 1 вызвано: java.net.SocketTimeoutExceptionjava.net.DualStackPlainSocketImpl.waitForNewConnection (собственный метод) в java.net.DualStackPlainSocketImpl.socketAccept (DualStackPlainSocketImpl.java:135) в java.net.AbstractPlainSocketImpl.aclain.mpcket.mpl.jplaySlmp.jplaySlmp.jlPlainSocketImpl.java:199) на java.net.ServerSocket.implAccept (ServerSocket.java:545) на java.net.ServerSocket.accept (ServerSocket.java:513) на org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker (PythonWorkerFactory.scala: 133) ... еще 12

...