Question

Если данные поступают в различных форматах файлов в одном хранилище объектов.Должно ли это быть обработано одним конвейером?какова лучшая практика?

Rui Wang · Answer 1 · 31 января 2019

Это будет зависеть от того, включают ли ваши требования данные объединения / слияния из разных форматов.

Скажите, если у вас есть несколько источников, и каждый источник считывает данные для формата файла.И затем вы хотите объединить ваши PCollections и выполнить агрегации, у вас должен быть один отдельный конвейер.

Вы также можете проверить [1], [2], [3].

В [4] показано, как BeamSQL преобразует текстовый файл в строку.

[1] https://beam.apache.org/documentation/pipelines/design-your-pipeline/#multiple-sources [2] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/schemas/Schema.java [3] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/values/Row.java [4] https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/main/java/org/apache/beam/sdk/extensions/sql/meta/provider/text/TextTable.java#L68

обработка нескольких форматов файла данных (JSON, XML, CSV)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

обработка нескольких форматов файла данных (JSON, XML, CSV)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы