Неясно, что вы имеете в виду, сравнивая с существующими данными в корзине. Это зависит от того, как вы хотите сделать сравнение, каков размер файла, возможно, другие вещи. Примеры ввода против вывода помогли бы.
Например, если то, что вы пытаетесь сделать, похоже на операцию Join, вы можете попробовать использовать CoGroupByKey
( ссылка на документ ), чтобы объединить два PCollections
, одно чтение из BigTable другое чтение Avros от GCS .
Или же, если файл имеет разумный размер (умещается в памяти), вы, вероятно, можете смоделировать его как боковой ввод ( ссылка на документ ).
Или, в конечном итоге, вы всегда можете использовать сырой GCS API для запроса данных в ParDo
и делать все вручную.