Кодировка создания файла паркета - PullRequest
0 голосов
/ 26 марта 2020

Местоположение, которое я указал для файла паркета, имело два файла => try.parquet и .try.parquet try.parquet - файл паркета. Какой другой файл? Ранее, когда я использовал спарк для записи в паркете, размер файла составлял 64 КБ для 5000 записей. Теперь размер файла составляет 350 КБ для 9000 записей. Чего не хватает? Вот что я делаю.

try (ParquetWriter<Record> writer = AvroParquetWriter
                .<Record>builder(new org.apache.hadoop.fs.Path("/temp/try.parquet")).withSchema(avroSchema)
                .withConf(new Configuration())
                .withCompressionCodec(CompressionCodecName.SNAPPY)
                .withWriteMode(Mode.OVERWRITE).build()) {
...