Распакованный список файлов отключает опцию maxRecordsPerFile в контекстном искре в pyspark - PullRequest
0 голосов
/ 23 октября 2019

Опция "maxRecordsPerFile", похоже, не работает, когда я использую распакованный список файлов для чтения файлов паркета, в spark.

Напротив, если я использую определенное имя каталога или имя файла (вместо файлаlist), опция «maxRecordsPerFile» работает, как и ожидалось.

Пожалуйста, посмотрите код ниже, который я использовал: file_path_list = ['file1','file2','file3'] read_df = spark.read.parquet(*file_path_list) read_df.write.mode("overwrite").option("maxRecordsPerFile",num_records).option("header", "true").parquet(destination_file_path)

Есть что-нибудь, что я здесь делаю неправильно?

...