Apache Beam: разделение по ключу и запись каждого раздела в отдельный файл - PullRequest
0 голосов
/ 04 ноября 2019

У меня есть PCollection, которую я прочитал из BigQuery, который имеет 2 поля: id и string_value. Я хочу записать все значения string_values, принадлежащие одному и тому же идентификатору, в файл (текст или CSV) в сегменте GCS с каждым значением в новой строке. Поэтому я получаю столько текстовых файлов, сколько идентификаторов, каждый из которых содержит только принадлежащие ему значения string_values. В Spark я бы использовал row.write (). PartitionBy ("id"), что я могу использовать в Beam?

...