Я новичок в зажигании и изучении этого. Может ли кто-нибудь помочь с приведенным ниже вопросом
Цитата в окончательном искре относительно определения информационного кадра: «В общем, Spark не будет работать только во время выполнения задания, а не во время определения DataFrame - даже если, например, мы указываем на файл этого не существует. Это из-за ленивых вычислений: "
, поэтому я думаю, spark.read.format().load()
- это определение фрейма данных. Вдобавок к этому созданному фрейму данных мы применяем преобразования и действия, а загрузка - это чтение API, а не преобразование, если я не ошибаюсь.
Я пытался "загрузить файл, который не существует" при загрузке, и я думаю, что это определение фрейма данных. но я получил ошибку ниже. согласно книге это не должно подвести, верно? Я, безусловно, что-то упустил. Может ли кто-нибудь помочь в этом?
df=spark.read.format('csv')
.option('header',
'true').option('inferschema', 'true')
.load('/spark_df_data/Spark-The-Definitive-Guide/data/retail-data/by-day/2011-12-19.csv')
Ошибка
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/hdp/current/spark2-client/python/pyspark/sql/readwriter.py", line 166, in load
return self._df(self._jreader.load(path))
File "/usr/hdp/current/spark2-client/python/lib/py4j-0.10.6-src.zip/py4j/java_gateway.py", line 1160, in __call__
File "/usr/hdp/current/spark2-client/python/pyspark/sql/utils.py", line 69, in deco
raise AnalysisException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.AnalysisException: u'Path does not exist: /spark_df_data/Spark-The-Definitive-Guide/data/retail-data/by-day/2011-12-19.csv;'
Почему определение фрейма данных ссылается на метаданные oop, когда вычисляется ленивый?