Я действительно больше ничего не понимаю ... PySpark не читает все файлы в одной папке.
ls
возвращает:
Verzeichnis von C:\Users\####\Data_Projects\NPL
21.04.2020 15:41 <DIR> .
21.04.2020 15:41 <DIR> ..
21.04.2020 13:18 <DIR> .ipynb_checkpoints
21.04.2020 14:50 <DIR> IMBD_Reviews
21.04.2020 15:40 <DIR> imdb_reviews_preprocessed
21.04.2020 14:48 13.717.398 imdb_reviews_preprocessed.parquet.zip
21.04.2020 15:38 21.738 NPL with pyspark.ipynb
23.10.2016 19:47 <DIR> sentiments.parquet
21.04.2020 14:51 38.387 sentiments.parquet.zip
21.04.2020 14:52 <DIR> tweets.parquet
21.04.2020 14:51 136.483 tweets.parquet.zip
4 Datei(en), 13.914.006 Bytes
7 Verzeichnis(se), 1.552.965.632 Bytes frei
tweets_df = sqlContext.read.parquet('tweets.parquet')
работает совершенно нормально и
rewievs = sqlContext.read.parquet("imdb_reviews_preprocessed.parquet")
возвращает ошибку
An error occurred while calling o541.parquet.
: org.apache.spark.sql.AnalysisException: Path does not exist: file:/C:/Users/####/Data_Projects/NPL/imdb_reviews_preprocessed/imdb_reviews_preprocessed.parquet;
...
Есть идеи?