Каков рекомендуемый подход для хранения неудачных записей в конвейере потока данных Google? - PullRequest
0 голосов
/ 03 апреля 2019

Хотите сохранить ошибочные записи в конвейере потока данных Google, чтобы его можно было найти / повторить позже. Что является лучшим компонентом для хранения неудачных записей? Записи должны храниться с точки зрения клиента и даты (для каждого дня). Подходит ли для этого сценария Pub / Sub, Bigquery или Datastore?

1 Ответ

0 голосов
/ 03 апреля 2019

Я не верю, что в Beam есть обобщенное решение для этого. Каждый приемник может предлагать свой собственный способ сбора и обработки неудачных записей. Например, приемник BigQuery предлагает функцию getFailedInserts (), которая позволит вам получить PCollection неудачных записей при записи в BigQuery с использованием потоковых вставок. Если вы пишете из пользовательского преобразования ParDo, вы можете реализовать аналогичную функцию, выводя сбойные элементы из вашего ParDo.

...