Можем ли мы написать функцию ParDo внутри функции ParDo? - PullRequest
0 голосов
/ 28 июня 2018

Например, у меня есть список URL-адресов в виде строк, которые хранятся в Datastore. Итак, я использовал функцию DatastoreIO и прочитал их в PCollection. В DoDoF в ParDo для каждого URL (который является местоположением файла в облачном хранилище GCP) я должен прочитать файл, находящийся в этом месте, и выполнить дальнейшие преобразования.

Итак, я хочу знать, могу ли я написать ParDo для PCollections внутри функции ParDo. Вид параллельного выполнения каждого преобразования файла и отправки KV (ключ, PCollection) в качестве вывода первой функции ParDo.

Извините, если я не представил свой сценарий ясно. Я новичок в Apache Beam и Google Dataflow

1 Ответ

0 голосов
/ 28 июня 2018

То, что вы хотите, это TextIO # readAll () .

PCollection<String> urls = pipeline.apply(DatastoreIO.read(...))
PCollection<String> lines = urls.apply(TextIO.readAll())
...