Cloud Dataprep BigQuery Upsert - PullRequest
       15

Cloud Dataprep BigQuery Upsert

2 голосов
/ 14 апреля 2020

Есть ли способ обновить строки в Google BigQuery при публикации из Cloud Dataprep? Я ничего не могу найти в документации.

У меня есть набор данных, который я предварительно обрабатываю с помощью Dataprep, который содержит новые строки и обновленные строки при каждом (ежедневном) запуске. Я хотел бы постепенно записывать его в BigQuery, добавляя новые строки и обновляя существующие измененные строки.

1 Ответ

2 голосов
/ 14 апреля 2020

Таким образом, Trifacta (CDP) может либо добавлять, заменять или создавать новый файл при каждом запуске задания. Вы ссылаетесь на действие Upsert \ Merge. Таким образом, это можно сделать за 2 шага.

  1. для новых строк, вы можете использовать опцию запуска "append"
  2. для обновления существующих строк - 2 варианта .

Либо - A. выполните преобразование объединения с выходным файлом (уже в большом запросе), затем дедуплицируйте \ aggregate и выберите способ объединения между дублированными строками. это может быть сделано каждый раз, когда новый файл создается \ создается \ обновляется. B. создайте новый файл, затем с помощью параметризации импортируйте все файлы в папке - объедините их и выполните группировку, указанную в A .

Очевидно - опция A кажется более просто c.

Имеет ли это смысл?

...