спарк-запуск в window10 --- выдается ошибка wordCount.foreach (print) - PullRequest
0 голосов
/ 04 декабря 2018

каждый! Я строю SPARK для Windows и запускаю свою первую программу (wordcount),

sc.stop()
from pyspark import SparkContext
sc = SparkContext('local', 'test')
textFile = sc.textFile("E:/program/spark-2.4.0-bin-hadoop2.7/README.md")
wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: 
(word,1)).reduceByKey(lambda a, b:a+b)
wordCount.foreach(print)

, но при выполнении кода "wordCount.foreach (print)" что-то не так, оно показываеттакая информация об ошибке:

Произошла ошибка при вызове z: org.apache.spark.api.python.PythonRDD.collectAndServe.: org.apache.spark.SparkException: Задание прервано из-за сбоя этапа: Задача 0 на этапе 8.0 не выполнена 1 раз, последний сбой: Потерянная задача 0.0 на этапе 8.0 (TID 4, localhost, драйвер исполнителя): java.io.IOException: Не удается запустить программу "python": ошибка CreateProcess = 2, ошибка на java.lang.ProcessBuilder.start (ProcessBuilder.java:1048) на org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker(PythonWorkerFactory.scala: 155) в org.apache.spark.api.python.PythonWorkerFactory.create (PythonWorkerFactory.scala: 97) в org.apache.spark.SparkEnv.createPythonWorker (SparkEnv.scg. 117):spark.api.python.BasePythonRunner.compute (PythonRunner.scala: 108) в org.apache.spark.api.python.PythonRDD.compute (PythonRDD.scala: 65) в org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 324) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 288) в org.apache.spark.api.python.PairwiseRDD.compute (PythonRDD.scala: 103) в org.apache.spark.rdd.RDD.computeOrReadCheckуказать (RDD.scala: 324) на org.apache.spark.rdd.RDD.iterator (RDD.scala: 288) на org.apache.spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 99) на org.apache.spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 55) по адресу org.apache.spark.scheduler.Task.run (Task.scala: 121) по адресу org.apache.spark.executor.Executor $ TaskRunner $ 10.apply (Executor.scala: 402) в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 408)в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) в java.lang.Thread.run (поток) Вызывается: java.io.IOException: ошибка CreateProcess = 2, 系统 找不到 指定 的 文件。 в java.lang.ProcessImpl.create (собственный метод) в java.lang.ProcessImpl. (ProcessImpl.java:386) вjava.lang.ProcessImpl.start (ProcessImpl.java:137) в java.lang.ProcessBuilder.start (ProcessBuilder.java:1029) ... еще 19

Отслеживание стека драйверов: на org.apache.spark.scheduler.DAGScheduler.org $ apache $ spark $ планировщик $ DAGScheduler $$ failJobAndIndependentStages (DAGScheduler.scala: 1887)в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler.scala: 1875) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler.scala 18):в scala.collection.mutable.ResizableArray $ class.foreach (ResizableArray.scala: 59) в scala.collection.mutable.ArrayBuffer.foreach (ArrayBuffer.scala: 48) в org.apache.spark.scheduler.DAGScheduler.abortStage (DAGScheduler.scala: 1874) в org.apache.spark.scheduler.DAGScheduler $$ anonfun $ handleTaskSetFailed $ 1.apply (DAGScheduler.scala: 926) в org.apache.spark.scheduler.DAGScheduler $$ anonfapp $ handleTaskSetFile.scala: 926) в scala.Option.foreach (Option.scala: 257) в org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed (DAGScheduler.scala: 926) в org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive (DAGScheduler.scala: 2108) по адресу org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive (DAGScheduler.scala: 2057) по адресу org.apache.spark.scheduler.DAGSchedulerEventProcessLag: DAG ().apache.spark.util.EventLoop $$ anon $ 1.run (EventLoop.scala: 49) в org.apache.spark.scheduler.DAGScheduler.runJob (DAGScheduler.scala: 737) в org.apache.spark.SparkContext.runJob(SparkContext.scala: 2061) в org.apache.spark.SparkContext.runJob (SparkContext.scala: 2082) в org.apache.spark.SparkContext.runJob (SparkContext.scala: 2101) в org.apache.spark.Spunobtext(SparkContext.scala: 2126) в org.apache.spark.rdd.RDD $$ anonfun $ collect $ 1.apply (RDD.scala: 945) в org.apache.spark.rdd.RDDOperationScope $ .withScope (RDDOperationScope.scala:151) в org.apache.spark.rdd.RDDOperationScope $ .withScope (RDDOperationScope.scala: 112) в org.apache.spark.rdd.RDD.withScope (RDD.scala: 363) в org.apache.spark.rdd.RDD.collect (RDD.scala: 944) в org.apache.spark.api.python.PythonRDD $ .collectAndServe (PythonRDD.scala: 166) в org.apache.spark.api.python.PythonRDD.collectAndServe (PythonRD).) на солнцеMethod.invoke (Method.java:498) в py4j.reflection.MethodInvoker.invoke (MethodInvoker.java:244) в py4j.reflection.ReflectionEngine.invoke (ReflectionEngine.java:357) в py4j.Gateway.invoke (Gateway.java:282) в py4j.commands.AvstractMom(AbstractCommand.java:132) на py4j.commands.CallCommand.execute (CallCommand.java:79) на py4j.GatewayConnection.run (GatewayConnection.java:238) на java.lang.Thread.run (Thread.java:748)Причина: java.io.IOException: Не удается запустить программу «python»: ошибка CreateProcess = 2,,。 指定 的 文件。 в java.lang.ProcessBuilder.start (ProcessBuilder.java:1048) в org.apache.spark.api.python.PythonWorkerFactory.createSimpleWorker (PythonWorkerFactory.scala: 155) в org.apache.spark.api.python.PythonWorkerFactory.create (PythonWorkerFactory.scala: 97) в org.apache.spark.SparkEnv.createPythonWorker (SparkEnv.scala: 117) в org.apache.spark.api.python.BasePythonRunner.compute (PythonRunner.scala: 108) в org.apache.spark.api.python.PythonRDD.compute (PythonRDD.scala: 65) в org.apache.лонжеронk.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 324) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 288) в org.apache.spark.api.python.PairwiseRDD.compute (PythonRDD.scala: 103) в org.apache.spark.rdd.RDD.computeOrReadCheckpoint (RDD.scala: 324) в org.apache.spark.rdd.RDD.iterator (RDD.scala: 288) в org.apache.spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 99) в org.apache.spark.scheduler.ShuffleMapTask.runTask (ShuffleMapTask.scala: 55) в org.apache.spark.schedur.task.task.task.task 121) atask.org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor.scala: 402) в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360) в org.apache.spark.executor.Executor $ TaskRunner.) ... еще 1 причина: java.io.IOException: ошибка CreateProcess = 2,。 找不到 指定 的 文件。 вjava.lang.ProcessImpl.create (собственный метод) в java.lang.ProcessImpl. (ProcessImpl.java:386) в java.lang.ProcessImpl.start (ProcessImpl.java:137) в java.lang.ProcessBuilder.start (ProcessBuilder).java: 1029) ... еще 19

Спасибо за помощь!

...