Все, что я читал об озерах данных, говорит о том, что вы должны хранить данные в необработанном формате, а затем использовать необходимый конвейер преобразования хранилища экстрактов для обработки данных.
Что если ваши структуры данных меняются почти каждый месяц? Вы просто создаете копию существующего конвейера, вносите в нее необходимые изменения и продолжаете поддерживать старый конвейер, чтобы в дальнейшем вы могли получить согласованный набор данных в своем анализе?
Хороший пример - данные такси Нью-Йорка. Набор данных меняется через первые несколько лет, добавляются новые столбцы и существующие столбцы переименовываются. Если бы это был мой процесс, я бы просто поддерживал конвейер "pipe v1", а затем создавал бы "конвейер v2", который собирал данные только после года четыре?