pyspark не может найти файл - PullRequest
       6

pyspark не может найти файл

0 голосов
/ 10 сентября 2018

Когда я передаю pandas.DataFrame в spark.sql.dataframe, возникает «FileNotFoundError».Раньше код мог нормально работать, а теперь нет.Это обратная трассировка:

import pyspark.sql.types as typ
spark=SparkSession.builder.master("local").appName('yiguan').getOrCreate()
sc=spark.sparkContext
device_train_spark=spark.createDataFrame(deviceid_train)
device_train_spark.show(4)

deviceid_train - это «pandas.core.frame.DataFrame»

FileNotFoundError Traceback (последний последний вызов) в() 11 # "age_level", typ.IntegerType (), True) 12 #]) ---> 13 device_train_spark = spark.createDataFrame (deviceid_train) 14 device_train_spark.show (4)

e: \ software\ python36 \ lib \ site-packages \ pyspark \ sql \ session.py в createDataFrame (self, data, схема, samplingRatio, verifySchema) 689 rdd, schema = self._createFromRDD (data.map (prepare), схема, samplingRatio) 690еще: -> 691 rdd, схема = self._createFromLocal (карта (подготовка, данные), схема) 692 jrdd = self._jvm.SerDeUtil.toJavaArray (rdd._to_java_object_rdd ()) 693 jdf = self._jsparkSession.appyrDhD.rdd (), schema.json ())

e: \ software \ python36 \ lib \ site-packages \ pyspark \ sql \ session.py в _createFromLocal (self, data, schema) 422 # конвертировать pythonобъекты в данные sql 423 data = [schema.toInternal (row) для строки в данных] -> 424 returnself._sc.parallelize (data), схема 425 426 def _get_numpy_record_dtype (self, rec):

e: \ software \ python36 \ lib \ site-packages \ pyspark \ context.py в параллелизе (self, c, numSlices) 494 batchSize = max (1, min (len (c) // numSlices, self._batchSize или 1024)) 495 serializer = BatchedSerializer (self._unbatched_serializer, batchSize) -> 496 jrdd = self._serialize_to_jvm (c,numSlices, serializer) 497 возвращает RDD (jrdd, self, serializer) 498

e: \ software \ python36 \ lib \ site-packages \ pyspark \ context.py в _serialize_to_jvm (self, данные, параллелизм, сериализатор)503 объекта записываются в файл и загружаются через textFile ().504 "" "-> 505 tempFile = NamedTeoraryFile (delete = False, dir = self._temp_dir) 506 try: 507 serializer.dump_stream (data, tempFile)

e: \ software \ python36 \ lib \ tempfile.py в NamedTeoraryFile (режим, буферизация, кодирование, новая строка, суффикс, префикс, dir, delete) 547 флагов | = _os.O_TEMPORARY 548 -> 549 (fd, name) = _mkstemp_inner (dir, префикс, суффикс, флаги, выходной_тип) 550 try: 551 file = _io.open (fd, режим, буферизация = буферизация,

e: \ software \ python36 \ lib \ tempfile.py в _mkstemp_inner (dir, pre, suf, flags, output_type)258 file = _os.path.join (dir, pre + name + suf) 259 try: -> 260 fd = _os.open (file, flags, 0o600) 261 кроме FileExistsError: 262 continue # попытаться снова

FileNotFoundError: [Errno 2] Нет такого файла или каталога: 'C: \ Users \ CT \ AppData \ Local \ Temp \ spark-b55a0865-0f1f-415e-96d8-a826df1c43ec \ pyspark-1e1331d8-98d6-424a-ab5e-44c7fb2\ tmpb_l2gn63 '

Почему это не работает сейчас?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...