У меня есть папка GCS, в которой хранятся тысячи новых файлов json с разделителями строк. Я должен написать лучевую программу, чтобы прочитать тысячи файлов json, обработать их и записать в другую папку / папку GCS. Я использую Apache Beam с облачным потоком данных в качестве бэкэнда для работы.
Вот как я читаю файлы json из корзины GCS:
(pcoll | "read data gcs" >> beam.io.ReadFromText(self.bucket + "*", coder=JsonCoder()))
Мой вопрос, когда я даю *
во время чтения файлов, не так лислишком много, чтобы прочитать все файлы в память? Или как луч читает очень большие данные?