Например, у меня есть файлы .tgz.Он находится в облачном хранилище Google.Внутри .tgz есть серия |файлы с разделителями .txt.Например, один из 10 файлов может быть назван аналогично
. Я бы хотел использовать Apache Beam в Python SDK, чтобы при минимальном чтении .tgz и сопутствующих файлов .txt без необходимости сначала его распаковывать.Я хотел бы разобрать |содержимое с разделителями и отправка коллекции в BigQuery в предопределенном Dataset.Table.
Это то, что у меня есть.
import apache_beam as beam
from apache_beam import (coders, io)
raw_logs = (p
| io.Read("ReadLogsFromGCS", beam.io.TextFileSource(
"gs://my-bucket/logs-*.gz",
coder=coders.BytesCoder()))
p.run()