Облачный поток данных: справочная таблица, которая обновляется каждый час в качестве побочного ввода - PullRequest
0 голосов
/ 23 января 2020

Используя Apache Beam on Cloud Dataflow, я хочу использовать справочную таблицу, которая обновляется каждый час.

Я нашел решение для медленно меняющегося поискового кэша здесь , но в статье конкретно говорится, что шаблон подходит для ежедневных, а не часовых изменений.

Что не так с использовать это решение для более частых обновлений?

Как мне go реализовать реализацию бокового ввода справочной таблицы, который обновляется ежечасно?

1 Ответ

1 голос
/ 28 января 2020

Почасовая и ежедневная не должны представлять большой разницы для потока данных. Решение должно хорошо работать с почасовыми обновлениями.

Учитывайте, сколько времени может потребоваться двигателю (в данном случае потоку данных) для загрузки в боковой ввод. Если вам нужно загружать ТБ данных каждый час, то это, вероятно, будет проблемой для вашего конвейера.

С другой стороны, если каждый час вам нужно загружать МБ до нескольких ГБ данных, это должно быть Относительно быстро ваш конвейер делает это каждый час.

...