Question

Я читаю паркет с:

df = spark.read.parquet(file_name)

И получите столбцы с:

df.columns

И возвращает список столбцов ['col1', 'col2', 'col3']

Я прочитал, что формат паркета может хранить некоторые метаданные в файле.

Есть ли способ хранить и читать дополнительные метаданные, например, прикреплять человеческое описание каждого столбца?

Спасибо.

DemetriKots · Answer 1 · 29 мая 2019

Невозможно прочитать или сохранить произвольные дополнительные метаданные в файле Parquet.

Когда упоминаются метаданные в файле Parquet, они ссылаются на технические метаданные, связанные с полем, включая количество вложенных полей., информация о типе, информация о длине и т. д. Если вы посмотрите на класс SchemaElement в документации по паркету (https://static.javadoc.io/org.apache.parquet/parquet-format/2.6.0/org/apache/parquet/format/SchemaElement.html), вы найдете все доступные метаданные для каждого поля в схеме. Это не включает в себя какие-либо удобочитаемые человекомописание вне имени поля.

Хороший обзор метаданных Parquet можно найти в разделе «Формат файла» здесь - https://parquet.apache.org/documentation/latest/

Прикрепите описание колонок в Apache Spark, используя формат паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Прикрепите описание колонок в Apache Spark, используя формат паркета

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы