Pyspark Jupyter Notebook: Как писать CSV? - PullRequest
0 голосов
/ 15 марта 2020
import findspark
findspark.init()
import pyspark # only run after findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df = spark.createDataFrame([('Tom', 80), ('Alice', 20)], ["name", "height"])
df1 = df.select(df.name).orderBy(df.name.desc())
df1.coalesce(1).write.csv('result315.csv')

Я получил следующую ошибку: Кто-нибудь знает, как это исправить? Я новичок в использовании pyspark и переполнения стека. введите описание изображения здесь

------------------------------- -------------------------------------------- Py4JJavaError Traceback (последний вызов последний) в ----> 1 df.coalesce (1) .write.csv ('D: /NationalData/result316.csv')

~ \ Desktop \ spark \ spark-2.4.5-bin -hadoop2.7 \ python \ pyspark \ sql \ readwriter.py в csv (self, путь, режим, сжатие, sep, цитата, escape, заголовок, nullValue, escapeQuotes, quoteAll, dateFormat, timestampFormat, ignoreLeadingWhiteSpace, ignoreTrailingWhiteSpace, charToEscape , emptyValue) 930 charToEscapeQuoteEscaping = charToEscapeQuoteEscaping, 931 encoding = encoding, emptyValue = emptyValue) -> 932 self._jwrite.csv (путь) 933 934 @since (1.5)

~ \ Desktop \ spark \ spark- 2.4.5-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-sr c .zip \ py4j \ java_gateway.py в call (self, * args) 1255 answer = self .gateway_client.send_command (команда) 1256 return_value = get_return_value (-> 1257 ответ, self.gateway_client, s elf.target_id, self.name) 1258 1259 для temp_arg в temp_args:

~ \ Desktop \ spark \ spark-2.4.5-bin-hadoop2.7 \ python \ pyspark \ sql \ utils.py in deco (* a, ** kw) 61 def deco (* a, ** kw): 62 try: ---> 63 возвращает f (* a, ** kw) 64 за исключением py4j.protocol.Py4JJavaError как e: 65 с = e.java_exception.toString ()

~ \ Desktop \ spark \ spark-2.4.5-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-sr c .zip \ py4j \ protocol.py в get_return_value (answer, gateway_client, target_id, name) 326 поднять Py4JJavaError (327 "Произошла ошибка при вызове {0} {1} {2}. \ n". -> 328 формат (target_id, ".", Name), значение) 329 else: 330 повысить Py4JError (

Py4JJavaError: Произошла ошибка при вызове o906.csv.: Org. apache .spark. SparkException: задание прервано. В орг. apache .spark. sql .execution.datasources.FileFormatWriter $ .write (FileFormatWriter. scala: 198) в орг. apache .spark. sql .execution. datasources.InsertIntoHadoopFsRelationCommand.run (InsertIntoHadoopFsRelationCommand. scala: 159) в org. apache .spark. sql .execution.command.DataWritingCommandExe c .sideEffectResult $ lzycompute * 104 или 104):). . apache .spark. sql .execution.command.DataWritingCommandExe c .sideEffectResult (команды. scala: 102) в org. apache .spark. sql .execution.command.DataWritingCommandExe c .doExecute (команды. scala: 122) в орг. apache .spark. sql .execution.SparkPlan $$ anonfun $ execute $ 1.apply (SparkPlan. scala: 131) в орг. apache .spark. sql .execution.SparkPlan $$ anonfun $ execute $ 1.apply (SparkPlan. scala: 127) в орг. apache .spark. sql .execution.SparkPlan $ $ anonfun $ executeQuery $ 1.apply (SparkPlan. scala: 155) в орг. apache .spark.rdd.RDDOperationScope $ .withScope (RDDOperationScope. scala: 151) в орг. apache .spark. sql .execution.SparkPlan.executeQuery (SparkPlan. scala: 152) в орг. apache .spark. sql .execution.SparkPlan.execute (SparkPlan. scala: 127) в орг. apache .spark. sql .execution.QueryExecution.toRdd $ lzycompute (QueryExecution. scala: 83) в org. apache .spark. sql .execution.QueryExecution.toRdd (QueryExecution. scala: 81) в орг. apache .spark. sql .DataFrameWriter $$ anonfun $ runCommand $ 1.apply (DataFrameWriter. scala: 676) в орг. apache .spark. sql .DataFrameWriter $$ anonfun $ runCommand $ 1.apply (DataFrameWriter. scala: 676) в орг. apache .spark. sql .execution.SQLExecution $$ anonfun $ withNewExecutionId $ 1.apply (SQLExecution. scala: 80) в орг. apache .spark. sql. execute.SQLExecution $ .withSQLConfPropagated (SQLExecution. scala: 127) в org. apache .spark. sql .execution.SQLExecution $ .withNewExecutionId (SQLExecution. scala: 75) в орг. spark. sql .DataFrameWriter.runCommand (DataFrameWriter. scala: 676) в org. apache .spark. sql .DataFrameWriter.saveToV1Source (DataFrameWriter. scala: 285) в org. apache. spark. sql .DataFrameWriter.save (DataFrameWriter. scala: 271) в орг. apache .spark. sql .DataFrameWriter.save (DataFrameWriter. scala: 229) в орг. apache. искры (Неизвестный источник) в java .lang.reflect.Method.invoke (Неизвестный источник) в py4j.reflection.MethodInvoker.invoke (MethodInvoker. java: 244) в py4j.reflection.ReflectionEngine.invoke (ReflectionEngine. java: 357) на py4j.Gateway.invoke (шлюз. java: 282) на py4j.comma nds.AbstractCommand.invokeMethod (AbstractCommand. java: 132) в py4j.commands.CallCommand.execute (CallCommand. java: 79) в py4j.GatewayConnection.run (GatewayConnection. java: 238) в java .lang.Thread.run (Неизвестный источник) Причина: org. apache .spark.SparkException: задание прервано из-за сбоя этапа: задача 0 на этапе 5.0 не выполнена 1 раз, последний сбой: потерянное задание 0.0 на этапе 5.0 ( TID 16, localhost, драйвер исполнителя): java .io.IOException: (ноль) запись в командной строке: null chmod 0644 D: \ NationalData \ result316.csv_tevent \ 0_tevent \ попытки_20200315131009_0005_m_000000_16 \ part-00000-4137684d2 -a5de-0fc86db0834f-c000.csv в орг. apache .had oop .util.Shell $ ShellCommandExecutor.execute (Shell. java: 770) в орг. apache .had oop .util. Shell.execCommand (Shell. java: 866) в орг. apache .had oop .util.Shell.execCommand (Shell. java: 849) в орг. apache .had oop. fs.RawLocalFileSystem.setPermission (RawLocalFileSystem. java: 733) в орг. apache .had oop .fs.RawLocalFileSystem $ LocalFSF ileOutputStream. (RawLocalFileSystem. java: 225) в org. apache .had oop .fs.RawLocalFileSystem $ LocalFSFileOutputStream. (RawLocalFileSystem. java: 209) в org. apache .had oop. fs.RawLocalFileSystem.createOutputStreamWithMode (RawLocalFileSystem. java: 307) в org. apache .had oop .fs.RawLocalFileSystem.create (RawLocalFileSystem. java: 296) в org. oop. * .fs.RawLocalFileSystem.create (RawLocalFileSystem. java: 328) в орг. apache .had oop .fs.ChecksumFileSystem $ ChecksumFSOutputSummer. (ChecksumFileSystem. java: 398) в орг. apache. имел oop .fs.ChecksumFileSystem.create (ChecksumFileSystem. java: 461) в орг. apache .had oop .fs.ChecksumFileSystem.create (ChecksumFileSystem. java: 440) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 911) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 892) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 789) в org. apache .spark. sql .execution.datasources.CodecStreams $ .createOutputStream (CodecStreams. scala) : 81) в орг. apache .spark. sql .execution.datasources.CodecStreams $ .createOutputStreamWriter (CodecStreams. scala: 92) в орг. apache .spark. sql .execution.datasources.csv.CsvOutputrit . (CSVFileFormat. scala: 177) в орг. apache .spark. sql .execution.datasources.csv.CSVFileFormat $$ anon $ 1.newInstance (CSVFileFormat. scala: 85) в орг. apache .spark. sql .execution.datasources.SingleDirectoryDataWriter.newOutputWriter (FileFormatDataWriter. scala: 120) в орг. apache .spark. sql .execution.datasources.SingleDirectoryDataWriter. (FileFormat. 108) в орг. apache .spark. sql .execution.datasources.FileFormatWriter $ .org $ apache $ spark $ sql $ исполнительный $ источники данных $ FileFormatWriter $$ executeTask (FileFormatWriter. scala: 236) в орг. apache .spark. sql .execution.datasources. FileFormatWriter $$ anonfun $ write $ 1.apply (FileFormatWriter. scala: 170) в org. apache .spark. sql .execution.datasources.FileFormatWriter $$ anonfun $ write $ 1.apply (FileFormatWriter. scala : 169) в орг. apache .spark.scheduler.ResultTask.runTask (ResultTask. scala: 90) в орг. apache .spark.scheduler.Task.run (Задача. scala: 123) в org. apache .spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Executor. scala: 408) в org. apache .spark.util.Utils $ .tryWithSafeFinally (Utils. scala: 1360) в орг. apache .spark.executor.Executor $ TaskRunner.run (Исполнитель. scala: 414) в java .util.concurrent.ThreadPoolExecutor.runWorker (Неизвестный источник) в java .util. concurrent.ThreadPoolExecutor $ Worker.run (неизвестный источник) в java .lang.Thread.run (неизвестный источник)

Отслеживание стека драйверов: в орг. apache .spark.scheduler.DAGScheduler.org $ apache $ spark $ scheduler $ DAGScheduler $$ failJobAndIndependentStages (DAGScheduler. scala: 1891) в org. apache .spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler. scala: 1879) в org. apache .spark.scheduler.DAGScheduler $$ anonfun $ abortStage $ 1.apply (DAGScheduler. scala: 1878) в scala .collection.mutable.ResizableArray $ class.foreach (ResizableArray. scala: 59) ) в scala .collection.mutable.ArrayBuffer.foreach (ArrayBuffer. scala: 48) в орг. apache .spark.scheduler.DAGScheduler.abortStage (DAGScheduler. scala: 1878) в орг. apache .spark.scheduler.DAGScheduler $$ anonfun $ handleTaskSetFailed $ 1.apply (DAGScheduler. scala: 927) в орг. : 927) в scala .Option.foreach (Опция. scala: 257) в орг. apache .spark.scheduler.DAGScheduler.handleTaskSetFailed (DAGScheduler. scala: 927) в орг. apache. spark.scheduler.DAGSchedulerEventProcessL oop .doOnReceive (DAGScheduler. scala: 2112) в org. apache .spark.scheduler.DAGSchedulerEventProcessL oop .onReceive (DAGScheduler. scala: 2061) или * .spark.scheduler.DAGSchedulerEventProcessL oop .onReceive (DAGScheduler. scala: 2050) в орг. apache .spark.util.EventLo op $$ anon $ 1.run (EventL oop. scala: 49) в орг. apache .spark.scheduler.DAGScheduler.runJob (DAGScheduler. scala: 738) в орг. apache .spark .SparkContext.runJob (SparkContext. scala: 2061) в org. apache .spark. sql .execution.datasources.FileFormatWriter $ .write (FileFormatWriter. scala: 167) ... еще 33 причинами: : java .io.IOException: (ноль) запись в командной строке: null chmod 0644 D: \ NationalData \ result316.csv_teven \ 0_tevent \ попытки_20200315131009_0005_m_000000_16 \ part-00000-4137684d-8b50-47d2-a5dfc cd.cd.cd.cf.cf.dll в орг. apache .had oop .util.Shell $ ShellCommandExecutor.execute (Shell. java: 770) в орг. apache .had oop .util.Shell.execCommand (Shell. java: 866) в орг. apache .had oop .util.Shell.execCommand (Shell. java: 849) в орг. apache .had oop .fs.RawLocalFileSystem.setPermission (RawLocalFileSystem. java: 733) в орг. apache .had oop .fs.RawLocalFileSystem $ LocalFSFileOutputStream. (RawLocalFileSystem. java: 225) в орг. apache .had oop .fs.RawLocalFileSystem $ LocalFSFileOput , (RawLocalFileSystem. java: 209) в орг. apache .had oop .fs.RawLocalFileSystem.createOutputStreamWithMode (RawLocalFileSystem. java: 307) в орг. apache .had oop .fs.RawLocalFocal .create (RawLocalFileSystem. java: 296) в орг. apache .had oop .fs.RawLocalFileSystem.create (RawLocalFileSystem. java: 328) в орг. apache .had oop .fs .ChecksumFileSystem $ ChecksumFSOutputSummer. (ChecksumFileSystem. java: 398) в org. apache .had oop .fs.ChecksumFileSystem.create (ChecksumFileSystem. java: 461) в org. apache .had * .fs.ChecksumFileSystem.create (ChecksumFileSystem. java: 440) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 911) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 892) в орг. apache .had oop .fs.FileSystem.create (FileSystem. java: 789) в орг. apache .spark. sql .execution.datasources.CodecStreams $ .createOutputStream (CodecStreams. scala: 81) в орг. apache .spark. sql .execution .datasources.CodecStreams $ .createOutputStreamWriter (CodecStreams. scala: 92) в org. apache .spark. sql .execution.datasources.csv.CsvOutputWriter. (CSVFileFormat. scala: 177) или 1290 * .spark. sql .execution.datasources.csv.CSVFileFormat $$ anon $ 1.newInstance (CSVFileFormat. scala: 85) в организации. apache .spark. sql .execution.datasources.SingleDirectoryDataWriter. newOutputWriter (FileFormatDataWriter. scala: 120) в орг. apache .spark. sql .execution.datasources.SingleDirectoryDataWriter. (FileFormatDataWriter. scala: 108) в орг. apache .spark. sql .execution.datasources.FileFormatWriter $ .org $ apache $ spark $ sql $ исполнительный $ источники данных $ FileFormatWriter $$ executeTask (FileFormatWriter. scala: 236) в орг. apache .spark. sql .execution.datasources. FileFormatWriter $$ anonfun $ write $ 1.apply (FileFormatWriter. scala: 170) в орг. apache .spark. sql .execution.datas ources.FileFormatWriter $$ anonfun $ write $ 1.apply (FileFormatWriter. scala: 169) в org. apache .spark.scheduler.ResultTask.runTask (ResultTask. scala: 90) в org. apache. spark.scheduler.Task.run (Task. scala: 123) в org. apache .spark.executor.Executor $ TaskRunner $$ anonfun $ 10.apply (Исполнитель. scala: 408) в org. apache .spark.util.Utils $ .tryWithSafeFinally (Utils. scala: 1360) в org. apache .spark.executor.Executor $ TaskRunner.run (Исполнитель. scala: 414) в java .util .concurrent.ThreadPoolExecutor.runWorker (неизвестный источник) по адресу java .util.concurrent.ThreadPoolExecutor $ Worker.run (неизвестный источник) ... еще 1

Информация об ошибке

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...