а) При чтении из ограниченного источника, насколько большим может быть размер PCollection при работе в потоке данных?
б) При работе с большими данными, скажем, около 50 миллионов данных PCollection пытается найти другую коллекцию PC из примерно 10 миллионов данных PCollection. Можно ли это сделать, и насколько хорошо работает Beam / Dataflow? В функции ParDo, учитывая, что мы можем передать только один вход и получить один выход, как можно выполнить поиск на основе 2 входных наборов данных? Я пытаюсь взглянуть на Dataflow / Beam аналогично любому другому инструменту ETL, где можно легко найти новую коллекцию PCollection. Пожалуйста, предоставьте любые фрагменты кода, которые могут помочь.
Я также видел функциональность бокового ввода, но может ли боковой ввод действительно содержать этот большой набор данных, если так можно выполнить поиск?