Можно ли исправить неудачные вставки в BigQuery при потоковой передаче данных из других облачных сервисов Google? - PullRequest
0 голосов
/ 11 июня 2018

BigQuery предоставляет insertIds и выполняет некоторую дедупликацию, чтобы помочь в сценариях сбоев при вставке данных через API.Согласно документации, BigQuery запоминает вставку на срок до минуты , поэтому, если вставка не удалась, можно повторить вставку через API, не беспокоясь о возможном (вставленном) дублировании данных.Это может быть сложно, чтобы получить право .

Проблема в том, что в Google Cloud существует масса сервисов, которые обещают вставить данные в BigQuery.Например, DataFlow / Apache Beam является частью рекомендуемого стека для получения данных из многих источников в BigQuery.Есть также Dataprep, Stackdriver Logging и другие.

Так есть ли единый последовательный способ восстановления неудачных вставок в BigQuery при использовании произвольного стороннего клиента BigQuery, т.е. не API BigQuery?

1 Ответ

0 голосов
/ 11 июня 2018

Нет.

Различные клиенты BigQuery используют API BigQuery по-разному.Это означает, что различные облачные сервисы Google, которые предлагают экспорт (или потоковую передачу) данных в BigQuery (например, Dataprep, Dataflow), имеют разные стратегии для обработки неудачных вставок BigQuery.

Если вам нужен последовательный подход для дедупликации данных BigQuery в случае неудачных вставок, вам необходимо реализовать собственное клиентское приложение BigQuery API.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...