Каков наилучший и эффективный подход для написания внутреннего соединения в Apache Beam? - PullRequest
0 голосов
/ 08 июня 2018

предположим, что мой запрос: "выберите b. * Из sourav_test.test1 внутреннее соединение sourav_test.test2 b на a.id = b.id".Мне нужен лучший и эффективный подход для Apache Beam, чтобы написать это.

1 Ответ

0 голосов
/ 01 августа 2018

В Apache Beam SDK 2.5 отличным подходом является использование библиотеки соединений , которая выполняет SQL-подобные соединения.В случае внутренних объединений синтаксис будет следующим:

innerJoin(PCollection<KV<K,V1>> leftCollection,PCollection<KV<K,V2>> rightCollection)

Что касается вашего случая, то левые и боковые коллекции представляют коллекции для внутреннего объединения.Значение K будет типом ключа, относящимся к обеим коллекциям.V будут представлять значения каждой коллекции соответственно.

...