Местоположение, которое я указал для файла паркета, имело два файла => try.parquet и .try.parquet try.parquet - файл паркета. Какой другой файл? Ранее, когда я использовал спарк для записи в паркете, размер файла составлял 64 КБ для 5000 записей. Теперь размер файла составляет 350 КБ для 9000 записей. Чего не хватает? Вот что я делаю.
try (ParquetWriter<Record> writer = AvroParquetWriter
.<Record>builder(new org.apache.hadoop.fs.Path("/temp/try.parquet")).withSchema(avroSchema)
.withConf(new Configuration())
.withCompressionCodec(CompressionCodecName.SNAPPY)
.withWriteMode(Mode.OVERWRITE).build()) {