Я новичок в области инженерии данных, и недавно я играл с библиотекой javascript redux.
Мне очень нравится подход, который они используют в управлении состоянием, и у меня есть мысль о применении некоторой подобной архитектуры / парадигмы к конвейерам данных.
Я думаю, что, возможно, что-то наподобие дерева объектов, которое редуцирует вычисления, могло бы пригодиться для высокоточной «передачи данных», я полагаю, что значительное количество метаданных могло бы даже быть собрано в самом конвейере, отладка могла бы стать бризом.
Это побудило бы больше людей писать более функциональные / чистые преобразования (например, редукторы)
Против
- Я не совсем понял, на что было бы похоже управление ресурсами, так как большие наборы данных должны были бы поиграться.
Хотя эффективные типы файлов ввода-вывода, такие как parquet, могут помочь, а инструменты, такие как spark, могут сделать управление ресурсами немного менее обременительным.
Кто-нибудь имел подобную мысль или это просто неосуществимо / разумно. Это все мысли в моей голове, я приветствую тыкал и подталкиваю, чтобы я мог узнать, существует ли это уже в той или иной форме или нет, потому что это просто глупо и / или невозможно.
Приветствия