Я бы хотел построить следующий конвейер:
pub/sub --> dataflow --> bigquery
Данные потоковые, но я бы хотел избежать потоковой передачи данных непосредственно в BigQuery, поэтому я надеялся собрать небольшие куски в машине потока данных и затем записать их в BQ в качестве задания загрузки, когда они достигнут определенного размера. /time.
Я не могу найти примеров того, как сделать это с помощью Python Apache Beam SDK - только Java.