Каковы различия между облачным потоком данных и Dataprep - PullRequest
0 голосов
/ 27 мая 2019

И Dataprep, и Dataflow могут использоваться для задач ETL.На самом деле Dataprep, похоже, использует задания Dataflow.Разве это единственное отличие, которое Dataprep предоставляет инструменты для написания заданий потока данных с пользовательским интерфейсом?

Ответы [ 2 ]

3 голосов
/ 28 мая 2019

Поток данных и dataprep могут точно преобразовывать данные.Основное различие заключается в том, кто использует технологию.Нужен ли вашему проекту самообслуживание для преобразования данных пользователями данных, такими как инженеры данных, или бизнес-пользователями, такими как аналитики и ученые данных?Тогда DataPrep является выбором.Это не кодирование.В конечном итоге он генерирует задания потока данных.Cloud dataprep предлагает расширенные преобразования, такие как поворот, разворачивание, агрегации, временные ряды, объединения, объединения, стандартизация и сотни других функций данных, представленных с помощью интуитивно понятного визуального интерфейса.Данные должны быть в CDS или BigQuery.

0 голосов
/ 28 мая 2019

Dataprep - это инструмент для выполнения ETL над источниками файлов через пользовательский интерфейс.Удобно, но относительно ограниченно.Поток данных - это управляемая служба для развертывания конвейеров ETL, написанных с использованием модели программирования луча apache, полезная как для пакетных, так и для потоковых данных, и потенциально может использоваться с любыми источниками данных, которые вы хотите (например, Kafka, pubsub, datastore, JDBC ...).Dataprep более ограничен GCS и BigQuery.

...