Настройка размера файла Avro, записанного в HDFS с помощью Spark - PullRequest
2 голосов
/ 10 апреля 2019

Я записываю фрейм данных Spark в формате Avro в HDFS. И я хотел бы разбить большие файлы Avro, чтобы они соответствовали размеру блока Hadoop и в то же время не были бы слишком маленькими. Есть ли для этого какие-либо варианты данных или Hadoop? Как я могу разделить файлы для записи на более мелкие?

Вот как я записываю данные в HDFS:

dataDF.write
  .format("avro")
  .option("avroSchema",parseAvroSchemaFromFile("/avro-data-schema.json"))
      .toString)
  .save(dataDir)

1 Ответ

1 голос
/ 12 мая 2019

Я много исследовал и обнаружил, что невозможно установить ограничение на размер файла только на количество записей Avro. Таким образом, единственным решением будет создание приложения для сопоставления количества записей с размерами файлов.

...