Эффективность Apache Beam Cloud Dataflow для чтения всех данных - PullRequest
1 голос
/ 27 октября 2019

У меня есть папка GCS, в которой хранятся тысячи новых файлов json с разделителями строк. Я должен написать лучевую программу, чтобы прочитать тысячи файлов json, обработать их и записать в другую папку / папку GCS. Я использую Apache Beam с облачным потоком данных в качестве бэкэнда для работы.

Вот как я читаю файлы json из корзины GCS:

(pcoll | "read data gcs" >> beam.io.ReadFromText(self.bucket + "*", coder=JsonCoder()))

Мой вопрос, когда я даю * во время чтения файлов, не так лислишком много, чтобы прочитать все файлы в память? Или как луч читает очень большие данные?

...