Как мне обрабатывать изменения файловой структуры в необработанных файлах, хранящихся в озере данных? - PullRequest
0 голосов
/ 10 сентября 2018

Все, что я читал об озерах данных, говорит о том, что вы должны хранить данные в необработанном формате, а затем использовать необходимый конвейер преобразования хранилища экстрактов для обработки данных.

Что если ваши структуры данных меняются почти каждый месяц? Вы просто создаете копию существующего конвейера, вносите в нее необходимые изменения и продолжаете поддерживать старый конвейер, чтобы в дальнейшем вы могли получить согласованный набор данных в своем анализе?

Хороший пример - данные такси Нью-Йорка. Набор данных меняется через первые несколько лет, добавляются новые столбцы и существующие столбцы переименовываются. Если бы это был мой процесс, я бы просто поддерживал конвейер "pipe v1", а затем создавал бы "конвейер v2", который собирал данные только после года четыре?

...