Я недавно начал работать над новым проектом, в котором мы используем Spark для записи / чтения данных в формате Parquet.Проект быстро меняется, и нам нужно регулярно менять схему файлов паркета.В настоящее время я борюсь с версионированием данных и кода.Мы используем систему управления версиями для нашей кодовой базы, но очень трудно (по крайней мере, на мой взгляд) сделать это для самих данных.У меня также есть сценарий миграции, который я использую для переноса данных из старой схемы в новую схему, но по пути я теряю информацию о том, что было схемой файла паркета перед запуском миграции.Мой приоритет также знать оригинальную схему.
Так что мои вопросы будут
- Как вы отслеживаете файлы паркета, которые имеют несоответствия схемы в вашей HDFS?У меня есть несколько терабайт паркетных файлов.
- После запуска сценария миграции для преобразования вашей текущей схемы (исходной) в новую схему, как вы отслеживаете исходную схему?
- Существуют ли какие-либо существующиеинструмент для достижения этого или я должен написать что-то свое?
Большое вам спасибо.