Question

Я недавно начал работать над новым проектом, в котором мы используем Spark для записи / чтения данных в формате Parquet.Проект быстро меняется, и нам нужно регулярно менять схему файлов паркета.В настоящее время я борюсь с версионированием данных и кода.Мы используем систему управления версиями для нашей кодовой базы, но очень трудно (по крайней мере, на мой взгляд) сделать это для самих данных.У меня также есть сценарий миграции, который я использую для переноса данных из старой схемы в новую схему, но по пути я теряю информацию о том, что было схемой файла паркета перед запуском миграции.Мой приоритет также знать оригинальную схему.

Так что мои вопросы будут

Как вы отслеживаете файлы паркета, которые имеют несоответствия схемы в вашей HDFS?У меня есть несколько терабайт паркетных файлов.
После запуска сценария миграции для преобразования вашей текущей схемы (исходной) в новую схему, как вы отслеживаете исходную схему?
Существуют ли какие-либо существующиеинструмент для достижения этого или я должен написать что-то свое?

Большое вам спасибо.

Управление паркетной схемой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Управление паркетной схемой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы