PySpark - читает на файл паркета, но не другой в той же папке? - PullRequest
0 голосов
/ 21 апреля 2020

Я действительно больше ничего не понимаю ... PySpark не читает все файлы в одной папке.

ls

возвращает:

 Verzeichnis von C:\Users\####\Data_Projects\NPL

21.04.2020  15:41    <DIR>          .
21.04.2020  15:41    <DIR>          ..
21.04.2020  13:18    <DIR>          .ipynb_checkpoints
21.04.2020  14:50    <DIR>          IMBD_Reviews
21.04.2020  15:40    <DIR>          imdb_reviews_preprocessed
21.04.2020  14:48        13.717.398 imdb_reviews_preprocessed.parquet.zip
21.04.2020  15:38            21.738 NPL with pyspark.ipynb
23.10.2016  19:47    <DIR>          sentiments.parquet
21.04.2020  14:51            38.387 sentiments.parquet.zip
21.04.2020  14:52    <DIR>          tweets.parquet
21.04.2020  14:51           136.483 tweets.parquet.zip
               4 Datei(en),     13.914.006 Bytes
               7 Verzeichnis(se),  1.552.965.632 Bytes frei
tweets_df = sqlContext.read.parquet('tweets.parquet')

работает совершенно нормально и

rewievs = sqlContext.read.parquet("imdb_reviews_preprocessed.parquet")

возвращает ошибку

 An error occurred while calling o541.parquet.
: org.apache.spark.sql.AnalysisException: Path does not exist: file:/C:/Users/####/Data_Projects/NPL/imdb_reviews_preprocessed/imdb_reviews_preprocessed.parquet;
...

Есть идеи?

1 Ответ

0 голосов
/ 22 апреля 2020
  // get parquet files in folder
  val f1 = spark.sparkContext.wholeTextFiles("/tmp/*.parquet")
    .toDF("fileName", "dataInFile")
    .select('fileName)


  // DataFrame with files parquet in folder
  val f10 = spark.read.parquet("/tmp/*.parquet")
...