Google Data Flow по сравнению с Ms SSIS ETL Tool - PullRequest
0 голосов
/ 21 ноября 2018

Привет всем разработчикам GCP,

Я новичок в продуктах GCP Data Engineering. Имея опыт работы с инструментом Microsoft SSIS ETL, я хотел бы узнать, какие различные преобразования и функции доступны в потоке данных Google,Инструмент MS SSIS обеспечивает простой интерфейс (перетаскивание) и использование SQL для выполнения ETL.

Поток данных в основном написан на Python, но как изменить или загрузить только определенные строки в CSV / текстовом файле, когда конкретныйзначение поля меньше требуемой суммы (фильтрация строк по одному полю)?

Поток данных Имя везде (онлайн), но почему нет документации по примерам обработки данных?

Если вы знаете какой-либо онлайн-курс (кроме Coursera) или книгу с практическим и практическим опытом, поделитесь им.

Спасибо

1 Ответ

0 голосов
/ 03 января 2019

Поток данных - это управляемая служба Apache Beam, поэтому применяются общие подсказки Beam , просто установите для бегуна значение DataflowRunner .

Здесь выможно найти сводку доступных преобразований (включая фильтр, который вы будете использовать в качестве примера фильтрации строк, о котором вы упомянули) для Java SDK.Beam также доступен для Python и Golang, но Java API является наиболее зрелым из этих трех.

Кроме того, если вам нужен графический интерфейс, более похожий на Microsoft SSIS, вы можете посмотреть Dataprep , который построен поверх Dataflow и предоставляет некоторые дополнительные интерактивные функции.

...