Question

Я записываю фрейм данных Spark в формате Avro в HDFS. И я хотел бы разбить большие файлы Avro, чтобы они соответствовали размеру блока Hadoop и в то же время не были бы слишком маленькими. Есть ли для этого какие-либо варианты данных или Hadoop? Как я могу разделить файлы для записи на более мелкие?

Вот как я записываю данные в HDFS:

dataDF.write
  .format("avro")
  .option("avroSchema",parseAvroSchemaFromFile("/avro-data-schema.json"))
      .toString)
  .save(dataDir)

Cassie · Answer 1 · 12 мая 2019

Я много исследовал и обнаружил, что невозможно установить ограничение на размер файла только на количество записей Avro. Таким образом, единственным решением будет создание приложения для сопоставления количества записей с размерами файлов.

Настройка размера файла Avro, записанного в HDFS с помощью Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Настройка размера файла Avro, записанного в HDFS с помощью Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы