У меня есть приложение, записывающее данные в pubsub Google Cloud, и, согласно документации pubsub, дублирование из-за механизма повторных попыток может происходить время от времени.Существует также проблема неупорядоченных сообщений, которая также не гарантируется в pubsub.
Кроме того, для каждой документации можно использовать Google Cloud Dataflow для дедупликации этих сообщений.
Iхочу сделать эти сообщения доступными в очереди сообщений (имеется в виду облачный pubsub) для использования службами и облачным хранилищем данных. Поток данных, похоже, имеет средство записи pubsubio, однако разве вы не вернетесь к той же самой проблеме, когда запись в pubsub может создать дубликаты?Разве это не было бы той же самой проблемой с заказом?Как я могу передавать сообщения по порядку, используя pubsub (или любую другую систему в этом отношении)?
Можно ли использовать облачный поток данных для чтения из темы pubsub и записи в другой pubsub с гарантией отсутствия дубликатов?Если нет, то как еще вы могли бы сделать это с поддержкой потоковой передачи относительно небольшого объема данных?
Также я очень плохо знаком с Apache beam / Cloud Dataflow.Как бы выглядел такой простой вариант использования?Я полагаю, что могу дедуплицировать, используя идентификатор, сгенерированный самой pubsub, так как я позволяю библиотеке pubsub выполнять внутреннюю повторную попытку, а не делать это самостоятельно, поэтому идентификатор должен быть одинаковым при повторных попытках.