Вопросы с тегом Апач-луч

0 голосов

1 ответ

Как получить общее количество элементов в PCollection

Я хочу получить общее количество элементов в PCollection<String, String> в Apache Beam.Я хочу...

Chinmay / 22 апреля 2019

0 голосов

1 ответ

Как получить читаемый файл?

У меня есть каталог, заполненный 99 файлами, я хочу прочитать эти файлы и затем хэшировать их в...

dmc94 / 21 апреля 2019

5 голосов

0 ответов

Проблемы с динамическими назначениями в потоке данных

У меня есть задание Dataflow, которое считывает данные из pubsub и на основе времени и имени файла...

Scicrazed / 18 апреля 2019

1 голос

0 ответов

Укажите версию луча для оператора потока данных в Cloud Composer

Мы написали конвейер Beam для версии 2.11, но когда мы пытаемся запустить его в Cloud Composer с...

Christopher Larsen / 17 апреля 2019

2 голосов

2 ответов

Присоединяйтесь к 2 неограниченным Pcollections на ключ

Я пытаюсь объединить две неограниченные PCollection, которые я получаю из двух разных тем кафки на...

capt2101akash / 15 апреля 2019

3 голосов

1 ответ

Конвейер луча не производит никакого вывода после GroupByKey с обработкой окон, и я получил ошибку памяти

Цель: Я хочу загрузить потоковые данные, затем добавить ключ и затем подсчитать их по ключу....

Saeed Mohtasham / 12 апреля 2019

0 голосов

1 ответ

Как отфильтровать элементы от нисходящих преобразований в конвейере, не отправляя NoneType?

Мне нужно удалить элементы в конвейере, которые соответствуют старым данным.то есть: данные до 1...

cloudpython / 11 апреля 2019

0 голосов

2 ответов

Установка пакета "ffmpeg" из setup.py в конвейер Apache Beam, работающий в облачном потоке данных Google

Я пытаюсь запустить конвейер Apache Beam в облачном потоке данных Google, который использует FFmpeg...

John Allard / 08 апреля 2019

0 голосов

1 ответ

Не могу вызвать `ApproximateDistinct.ApproximateDistinctFn` из ApacheBeam sql

Попытка использовать агрегатную функцию ApproximateDistinct.ApproximateDistinctFn из apache beam...

Brachi / 08 апреля 2019

0 голосов

1 ответ

Как удалить вложенную коллекцию PC в потоке данных

Чтобы объединить две вложенные структуры PCollection, нам нужно отсоединить PCollection перед...

lourdu rajan / 05 апреля 2019

0 голосов

1 ответ

Оконное управление работает при работе в DirectRunner, но не при работе в облачном потоке данных

Я пытаюсь разрушить слияние с GroupByKey. Это создает одно огромное окно, и, поскольку моя работа...

Graham Holker / 05 апреля 2019

0 голосов

2 ответов

Можно ли выполнить операцию zip в apache beam на двух PCollections?

У меня есть PCollection[str], и я хочу генерировать случайные пары. Исходя из Apache Spark, моя...

anthonybell / 03 апреля 2019

0 голосов

1 ответ

Присоединение таблицы вложенных структур с использованием Java-кода потока данных

Моя цель - объединить две таблицы, где вторая таблица нормальная, а первая таблица вложенной...

lourdu rajan / 02 апреля 2019

0 голосов

1 ответ

Как запустить Apache Beam локально?

Я пытаюсь запустить скрипт Python Apache Beam на моей локальной машине, чтобы провести некоторую...

DataEng / 02 апреля 2019

0 голосов

1 ответ

Как я могу остановить дополнительное повторение в доходности / доходности, сохраняя при этом промежуточные итоги для данной пары ключ: значение?

После передачи Pcollection к следующему преобразованию доходность / доходность преобразования...

cloudpython / 01 апреля 2019

0 голосов

2 ответов

Google Cloud Shell - Как устранить ошибку CERTIFICATE_VERIFY_FAILED?

У меня есть простой конвейер потока данных и я пытаюсь выполнить его из облачной оболочки, Код:...

Jaison / 30 марта 2019

1 голос

2 ответов

Пользовательский ключ для группировки в потоке данных

Я хочу использовать группировку с помощью пользовательского ключа, но пока моя попытка Мы...

Naoki Hyu / 29 марта 2019

2 голосов

1 ответ

Простой шаг подсчета, следующий за группой по ключу, чрезвычайно медленный в конвейере DataFlow

У меня есть конвейер DataFlow, пытающийся построить индекс (пары ключ-значение) и вычислить...

kpax / 28 марта 2019

0 голосов

1 ответ

Потоковые конвейеры Google Cloud Dataflow зависают примерно через 25 дней

Мы запускаем несколько потоковых конвейеров Dataflow, которые всегда в конечном итоге зависают и...

pnadolny / 22 марта 2019

0 голосов

0 ответов

Сгенерировать файл потока данных _метаданных из описаний луча PipelineOptions

Как можно автоматически сгенерировать шаблон потока данных _метаданных файла из кода конвейера Beam

marengaz / 21 марта 2019

0 голосов

1 ответ

PAssert не совпадает в строке

Я тестирую функцию Google Cloud Dataflow Pipeline следующим образом: @Test public void...

Eric H / 21 марта 2019

0 голосов

1 ответ

Ошибка отчетливого выброса (llegalStateException: keyCoder для GroupByKey должен быть детерминированным)

При чтении данных из таблицы bigQuery с помощью Dataflow Job старается избегать дублирования в...

lourdu rajan / 20 марта 2019

1 голос

1 ответ

Генерация самозапускающегося JAR с использованием Dataflow

В соответствии с указанием в ссылке попытался создать файл JAR для планирования задания потока...

lourdu rajan / 19 марта 2019

0 голосов

0 ответов

Сбой конвейера Apache BEAM при записи записей TF - AttributeError: у объекта 'str' нет атрибута 'iteritems'

Проблема начала появляться на выходных.По некоторым причинам, это чувствует, что проблема DataFlow....

GRS / 18 марта 2019

1 голос

1 ответ

Dataflow SDK 2.7.0 при подключении настройки 2.10.0

Я пытаюсь запустить задание потока данных, у меня есть следующий файл setup.py: import setuptools...

Salma R / 18 марта 2019