Я хочу получить общее количество элементов в PCollection<String, String> в Apache Beam.Я хочу...
У меня есть каталог, заполненный 99 файлами, я хочу прочитать эти файлы и затем хэшировать их в...
У меня есть задание Dataflow, которое считывает данные из pubsub и на основе времени и имени файла...
Мы написали конвейер Beam для версии 2.11, но когда мы пытаемся запустить его в Cloud Composer с...
Я пытаюсь объединить две неограниченные PCollection, которые я получаю из двух разных тем кафки на...
Цель: Я хочу загрузить потоковые данные, затем добавить ключ и затем подсчитать их по ключу....
Мне нужно удалить элементы в конвейере, которые соответствуют старым данным.то есть: данные до 1...
Я пытаюсь запустить конвейер Apache Beam в облачном потоке данных Google, который использует FFmpeg...
Попытка использовать агрегатную функцию ApproximateDistinct.ApproximateDistinctFn из apache beam...
Чтобы объединить две вложенные структуры PCollection, нам нужно отсоединить PCollection перед...
Я пытаюсь разрушить слияние с GroupByKey. Это создает одно огромное окно, и, поскольку моя работа...
У меня есть PCollection[str], и я хочу генерировать случайные пары. Исходя из Apache Spark, моя...
Моя цель - объединить две таблицы, где вторая таблица нормальная, а первая таблица вложенной...
Я пытаюсь запустить скрипт Python Apache Beam на моей локальной машине, чтобы провести некоторую...
После передачи Pcollection к следующему преобразованию доходность / доходность преобразования...
У меня есть простой конвейер потока данных и я пытаюсь выполнить его из облачной оболочки, Код:...
Я хочу использовать группировку с помощью пользовательского ключа, но пока моя попытка Мы...
У меня есть конвейер DataFlow, пытающийся построить индекс (пары ключ-значение) и вычислить...
Мы запускаем несколько потоковых конвейеров Dataflow, которые всегда в конечном итоге зависают и...
Как можно автоматически сгенерировать шаблон потока данных _метаданных файла из кода конвейера Beam
Я тестирую функцию Google Cloud Dataflow Pipeline следующим образом: @Test public void...
При чтении данных из таблицы bigQuery с помощью Dataflow Job старается избегать дублирования в...
В соответствии с указанием в ссылке попытался создать файл JAR для планирования задания потока...
Проблема начала появляться на выходных.По некоторым причинам, это чувствует, что проблема DataFlow....
Я пытаюсь запустить задание потока данных, у меня есть следующий файл setup.py: import setuptools...