обработка нескольких форматов файла данных (JSON, XML, CSV) - PullRequest
0 голосов
/ 31 января 2019

Если данные поступают в различных форматах файлов в одном хранилище объектов.Должно ли это быть обработано одним конвейером?какова лучшая практика?

1 Ответ

0 голосов
/ 31 января 2019

Это будет зависеть от того, включают ли ваши требования данные объединения / слияния из разных форматов.

Скажите, если у вас есть несколько источников, и каждый источник считывает данные для формата файла.И затем вы хотите объединить ваши PCollections и выполнить агрегации, у вас должен быть один отдельный конвейер.

Вы также можете проверить [1], [2], [3].

В [4] показано, как BeamSQL преобразует текстовый файл в строку.

[1] https://beam.apache.org/documentation/pipelines/design-your-pipeline/#multiple-sources [2] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/schemas/Schema.java [3] https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/values/Row.java [4] https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/main/java/org/apache/beam/sdk/extensions/sql/meta/provider/text/TextTable.java#L68

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...