Моя компания получает данные о событиях в пакетном и потоковом режиме. Я хочу обрабатывать данные с использованием потока данных Google Cloud в течение предсказуемого периода времени. Однако я понимаю, что в некоторых случаях данные поступают с опозданием или не в порядке. Как использовать Dataflow для обработки поздно или не в порядке?
Это вопрос домашнего задания, и хотелось бы узнать единственный ответ ниже.
а. Установить одно глобальное окно для захвата всех данных
б. Установить скользящее окно, чтобы захватить все запаздывающие данные
с. Используйте водяные знаки и временные метки для захвата данных с задержкой
д. Убедитесь, что у каждого типа источника данных (потока или пакета) есть временная метка, и используйте временные метки, чтобы определить логику для данных с задержкой.
Мои рассуждения - я верю, что «С» - это ответ. Но тогда водяной знак фактически отличается от поздних данных. Пожалуйста подтвердите. Кроме того, поскольку в вопросе упоминались как пакетные, так и потоковые данные, я также думаю, что «D» может быть ответом, поскольку режим «пакетной» (или ограниченной коллекции) не имеет временных меток, если он не исходит из источника или не установлен программно. Поэтому я немного запутался в ответе.
Пожалуйста, помогите здесь. Я не являюсь носителем английского языка, поэтому не уверен, что мог пропустить некоторые реплики в вопросе.