Поставить задачу в очередь задач Google / облачных задач из конвейера потока данных - PullRequest
0 голосов
/ 18 июня 2019

Мне нужно прочитать в файле GCS 750K записей.

Для каждой записи мне нужно сравнить ее с соответствующей записью в Google Datastore. Если запись из файла не соответствует записи в хранилище данных, мне нужно обновить запись хранилища данных и поставить задачу Taskqueue в очередь.

Часть, на которой я застрял, запускает эту задачу.

Единственный способ, по-видимому, - использовать API-интерфейс Google Cloud Task (https://cloud.google.com/tasks/docs/creating-http-target-tasks), но отправка HTTP-вызова из DoFn кажется неэффективной.

Я рассмотрел использование pubsub для этой задачи, поскольку поток данных имеет адаптер для этого, но вы можете использовать pubsub только для потоковых конвейеров.

1 Ответ

0 голосов
/ 19 июня 2019

Да, у Beam, похоже, нет специальных разъемов ввода-вывода для Cloud Task.Поэтому я думаю, что вы можете выдавать HTTP-запросы только из Beam DoFn.

...