Прикрепите описание колонок в Apache Spark, используя формат паркета - PullRequest
0 голосов
/ 29 мая 2019

Я читаю паркет с:

df = spark.read.parquet(file_name)

И получите столбцы с:

df.columns

И возвращает список столбцов ['col1', 'col2', 'col3']

Я прочитал, что формат паркета может хранить некоторые метаданные в файле.

Есть ли способ хранить и читать дополнительные метаданные, например, прикреплять человеческое описание каждого столбца?

Спасибо.

1 Ответ

1 голос
/ 29 мая 2019

Невозможно прочитать или сохранить произвольные дополнительные метаданные в файле Parquet.

Когда упоминаются метаданные в файле Parquet, они ссылаются на технические метаданные, связанные с полем, включая количество вложенных полей., информация о типе, информация о длине и т. д. Если вы посмотрите на класс SchemaElement в документации по паркету (https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html), вы найдете все доступные метаданные для каждого поля в схеме. Это не включает в себя какие-либо удобочитаемые человекомописание вне имени поля.

Хороший обзор метаданных Parquet можно найти в разделе «Формат файла» здесь - https://parquet.apache.org/documentation/latest/

...