Redux Как управление состоянием для данных в конвейерах данных - PullRequest
0 голосов
/ 13 апреля 2019

Я новичок в области инженерии данных, и недавно я играл с библиотекой javascript redux. Мне очень нравится подход, который они используют в управлении состоянием, и у меня есть мысль о применении некоторой подобной архитектуры / парадигмы к конвейерам данных.

  • Я думаю, что, возможно, что-то наподобие дерева объектов, которое редуцирует вычисления, могло бы пригодиться для высокоточной «передачи данных», я полагаю, что значительное количество метаданных могло бы даже быть собрано в самом конвейере, отладка могла бы стать бризом.

  • Это побудило бы больше людей писать более функциональные / чистые преобразования (например, редукторы)

Против

  • Я не совсем понял, на что было бы похоже управление ресурсами, так как большие наборы данных должны были бы поиграться. Хотя эффективные типы файлов ввода-вывода, такие как parquet, могут помочь, а инструменты, такие как spark, могут сделать управление ресурсами немного менее обременительным.

Кто-нибудь имел подобную мысль или это просто неосуществимо / разумно. Это все мысли в моей голове, я приветствую тыкал и подталкиваю, чтобы я мог узнать, существует ли это уже в той или иной форме или нет, потому что это просто глупо и / или невозможно.

Приветствия

...