Использование приведенной ниже команды на моем экземпляре AWS EC2 с запущенным PySpark.
final_rdd.coalesce(1).saveAsTextFile('<Location for saving file>')
Команда завершается ошибкой с журналами ниже.
[Этап 1:> (0 + 1) / 1] 19.06.12 05:08:41 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: потерянное задание 0.0 на этапе 1.0 (TID 7, ip-10-145-62-182.ec2 .internal, исполнитель 2): org.apache.spark.SparkException: сбой задачи при записи строк
в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 155)
в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 83)
в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 78)
в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 90)
в org.apache.spark.scheduler.Task.run (Task.scala: 121)
в org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor.scala: 402)
в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360)
в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 408)
в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149)
в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624)
на java.lang.Thread.run (Thread.java:748)
Вызывается: org.apache.spark.api.python.PythonException: Traceback (последний вызов был последним):
Файл "/mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py", строка 262, в основном
("% d.% d"% sys.version_info [: 2], версия))
Исключение: Python в рабочей версии отличается от версии 2.7, чем в драйвере 3.5, PySpark не может работать с другими второстепенными версиями. Проверьте, правильно ли установлены переменные окружения PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON.
в org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.handlePythonException (PythonRunner.scala: 452)
в org.apache.spark.api.python.PythonRunner $$ anon $ 1.read (PythonRunner.scala: 588)
в org.apache.spark.api.python.PythonRunner $$ anon $ 1.read (PythonRunner.scala: 571)
в org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.hasNext (PythonRunner.scala: 406)
в org.apache.spark.InterruptibleIterator.hasNext (InterruptibleIterator.scala: 37)
на scala.collection.Iterator $$ anon $ 11.hasNext (Iterator.scala: 409)
на scala.collection.Iterator $$ anon $ 11.hasNext (Iterator.scala: 409)
в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply (SparkHadoopWriter.scala: 128)
в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply (SparkHadoopWriter.scala: 127)
в org.apache.spark.util.Utils $ .tryWithSafeFinallyAndFailureCallbacks (Utils.scala: 1394)
в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 139)
... еще 10
19/06/12 05:08:41 ОШИБКА TaskSetManager: Задача 0 на этапе 1.0 не выполнена 4 раза; прерывание работы
19/06/12 05:08:41 ОШИБКА SparkHadoopWriter: прерывание задания job_20190612050833_0014.
org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 1.0 не выполнено 4 раза, последний сбой: потерянное задание 0.3 на этапе 1.0 (TID 10, ip-10-145-62-182.ec2. внутренний, исполнитель 2): org.apache.spark.SparkException: сбой задачи при записи строк
в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 155)
в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 83)в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 78)
в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 90)
в org.apache.spark.scheduler.Task.run (Task.scala: 121)
в org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor.scala: 402)
в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360)
в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 408)
в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149)
в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624)
на java.lang.Thread.run (Thread.java:748)
Вызывается: org.apache.spark.api.python.PythonException: Traceback (последний вызов был последним):
Файл "/mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py", строка 262, в основном
("% d.% d"% sys.version_info [: 2], версия))
Исключение: Python в рабочей версии отличается от версии 2.7, чем в драйвере 3.5, PySpark не может работать с другими второстепенными версиями. Проверьте, правильно ли установлены переменные окружения PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON.