Question

У меня есть папка GCS, в которой хранятся тысячи новых файлов json с разделителями строк. Я должен написать лучевую программу, чтобы прочитать тысячи файлов json, обработать их и записать в другую папку / папку GCS. Я использую Apache Beam с облачным потоком данных в качестве бэкэнда для работы.

Вот как я читаю файлы json из корзины GCS:

(pcoll | "read data gcs" >> beam.io.ReadFromText(self.bucket + "*", coder=JsonCoder()))

Мой вопрос, когда я даю * во время чтения файлов, не так лислишком много, чтобы прочитать все файлы в память? Или как луч читает очень большие данные?

Эффективность Apache Beam Cloud Dataflow для чтения всех данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Эффективность Apache Beam Cloud Dataflow для чтения всех данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы