Если данные поступают в различных форматах файлов в одном хранилище объектов.Должно ли это быть обработано одним конвейером?какова лучшая практика?
Это будет зависеть от того, включают ли ваши требования данные объединения / слияния из разных форматов.
Скажите, если у вас есть несколько источников, и каждый источник считывает данные для формата файла.И затем вы хотите объединить ваши PCollections и выполнить агрегации, у вас должен быть один отдельный конвейер.
Вы также можете проверить [1], [2], [3].
В [4] показано, как BeamSQL преобразует текстовый файл в строку.
[1] https://beam.apache.org/documentation/pipelines/design-your-pipeline/#multiple-sources [2] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/schemas/Schema.java [3] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/values/Row.java [4] https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/main/java/org/apache/beam/sdk/extensions/sql/meta/provider/text/TextTable.java#L68