Чтобы прочитать коллекцию на входе, вам нужно прочитать ее из источника. Т.е. некоторые данные хранятся в BigQuery, Google Cloud Storage и др. c. Есть определенные c исходные преобразования, которые вы можете использовать для чтения из каждого из этих мест. В зависимости от того, где вы сохранили свои данные, вам нужно будет использовать правильный источник и передать соответствующие параметры (например, путь GCS, таблица BigQuery)
Пожалуйста, посмотрите на пример минимального числа слов на сайте apache beam ( Полный исходный код на github ). Я предлагаю начинать с этого кода и повторять его до тех пор, пока вы не создадите нужный конвейер.
В этом примере файлы читаются из GCS
p.apply(TextIO.read().from("gs://apache-beam-samples/shakespeare/*"))
Пожалуйста, см. Также это руководство используя IOs, а также этот список преобразований луча IO . Если вы просто хотите, чтобы работал базовый пример c, вы можете использовать Create.of для чтения из переменных в вашей программе.