Генерация схемы меньше avro с использованием Spark - PullRequest
0 голосов
/ 21 апреля 2020

Есть ли способ создать схему меньше avro из Apache spark? Я вижу способ генерировать его через Java / Scala с использованием библиотеки apache avro и через слитое avro. Когда я пишу Avro из Spark ниже, он создает Avro со схемой. Я хочу создать без схемы, чтобы уменьшить размер конечного набора данных.

df.write.format("avro").save("person.avro")

1 Ответ

1 голос
/ 21 апреля 2020

Вам не нужно беспокоиться. И вы не можете отказаться от подхода.

AVRO всегда имеет данные и схему.

AVRO отличается от JSON, в котором хранится схема для каждой записи, которая находится в самих данных.

В AVRO схема сохраняется один раз для каждого файла. Таким образом, нужно учесть немного накладных расходов.

...