СДР не сохраняется как текстовый файл в pyspark - PullRequest
0 голосов
/ 12 июня 2019

Использование приведенной ниже команды на моем экземпляре AWS EC2 с запущенным PySpark.

final_rdd.coalesce(1).saveAsTextFile('<Location for saving file>')

Команда завершается ошибкой с журналами ниже.

[Этап 1:> (0 + 1) / 1] 19.06.12 05:08:41 ПРЕДУПРЕЖДЕНИЕ TaskSetManager: потерянное задание 0.0 на этапе 1.0 (TID 7, ip-10-145-62-182.ec2 .internal, исполнитель 2): org.apache.spark.SparkException: сбой задачи при записи строк в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 155) в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 83) в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 78) в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 90) в org.apache.spark.scheduler.Task.run (Task.scala: 121) в org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor.scala: 402) в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 408) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) на java.lang.Thread.run (Thread.java:748) Вызывается: org.apache.spark.api.python.PythonException: Traceback (последний вызов был последним): Файл "/mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py", строка 262, в основном ("% d.% d"% sys.version_info [: 2], версия)) Исключение: Python в рабочей версии отличается от версии 2.7, чем в драйвере 3.5, PySpark не может работать с другими второстепенными версиями. Проверьте, правильно ли установлены переменные окружения PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON. в org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.handlePythonException (PythonRunner.scala: 452) в org.apache.spark.api.python.PythonRunner $$ anon $ 1.read (PythonRunner.scala: 588) в org.apache.spark.api.python.PythonRunner $$ anon $ 1.read (PythonRunner.scala: 571) в org.apache.spark.api.python.BasePythonRunner $ ReaderIterator.hasNext (PythonRunner.scala: 406) в org.apache.spark.InterruptibleIterator.hasNext (InterruptibleIterator.scala: 37) на scala.collection.Iterator $$ anon $ 11.hasNext (Iterator.scala: 409) на scala.collection.Iterator $$ anon $ 11.hasNext (Iterator.scala: 409) в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply (SparkHadoopWriter.scala: 128) в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 4.apply (SparkHadoopWriter.scala: 127) в org.apache.spark.util.Utils $ .tryWithSafeFinallyAndFailureCallbacks (Utils.scala: 1394) в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 139) ... еще 10

19/06/12 05:08:41 ОШИБКА TaskSetManager: Задача 0 на этапе 1.0 не выполнена 4 раза; прерывание работы

19/06/12 05:08:41 ОШИБКА SparkHadoopWriter: прерывание задания job_20190612050833_0014. org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задание 0 на этапе 1.0 не выполнено 4 раза, последний сбой: потерянное задание 0.3 на этапе 1.0 (TID 10, ip-10-145-62-182.ec2. внутренний, исполнитель 2): org.apache.spark.SparkException: сбой задачи при записи строк в org.apache.spark.internal.io.SparkHadoopWriter $ .org $ apache $ spark $ internal $ io $ SparkHadoopWriter $$ executeTask (SparkHadoopWriter.scala: 155) в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 83)в org.apache.spark.internal.io.SparkHadoopWriter $$ anonfun $ 3.apply (SparkHadoopWriter.scala: 78) в org.apache.spark.scheduler.ResultTask.runTask (ResultTask.scala: 90) в org.apache.spark.scheduler.Task.run (Task.scala: 121) в org.apache.spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor.scala: 402) в org.apache.spark.util.Utils $ .tryWithSafeFinally (Utils.scala: 1360) в org.apache.spark.executor.Executor $ TaskRunner.run (Executor.scala: 408) в java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolExecutor.java:1149) в java.util.concurrent.ThreadPoolExecutor $ Worker.run (ThreadPoolExecutor.java:624) на java.lang.Thread.run (Thread.java:748) Вызывается: org.apache.spark.api.python.PythonException: Traceback (последний вызов был последним): Файл "/mnt/yarn/usercache/hadoop/appcache/application_1556865500911_0446/container_1556865500911_0446_01_000003/pyspark.zip/pyspark/worker.py", строка 262, в основном ("% d.% d"% sys.version_info [: 2], версия)) Исключение: Python в рабочей версии отличается от версии 2.7, чем в драйвере 3.5, PySpark не может работать с другими второстепенными версиями. Проверьте, правильно ли установлены переменные окружения PYSPARK_PYTHON и PYSPARK_DRIVER_PYTHON.

1 Ответ

0 голосов
/ 12 июня 2019

У вас проблема с версией Python.Версия Python вашего узла (2.7) отличается от версии Python узла драйвера (3.5). Пожалуйста, установите правильную версию.

...