Управление паркетной схемой - PullRequest
0 голосов
/ 19 октября 2018

Я недавно начал работать над новым проектом, в котором мы используем Spark для записи / чтения данных в формате Parquet.Проект быстро меняется, и нам нужно регулярно менять схему файлов паркета.В настоящее время я борюсь с версионированием данных и кода.Мы используем систему управления версиями для нашей кодовой базы, но очень трудно (по крайней мере, на мой взгляд) сделать это для самих данных.У меня также есть сценарий миграции, который я использую для переноса данных из старой схемы в новую схему, но по пути я теряю информацию о том, что было схемой файла паркета перед запуском миграции.Мой приоритет также знать оригинальную схему.

Так что мои вопросы будут

  • Как вы отслеживаете файлы паркета, которые имеют несоответствия схемы в вашей HDFS?У меня есть несколько терабайт паркетных файлов.
  • После запуска сценария миграции для преобразования вашей текущей схемы (исходной) в новую схему, как вы отслеживаете исходную схему?
  • Существуют ли какие-либо существующиеинструмент для достижения этого или я должен написать что-то свое?

Большое вам спасибо.

...