Присоединение таблицы вложенных структур с использованием Java-кода потока данных - PullRequest
0 голосов
/ 02 апреля 2019

Моя цель - объединить две таблицы, где вторая таблица нормальная, а первая таблица вложенной структуры. Ключ соединения доступен внутри вложенной структуры в первой таблице. В этом случае, как соединить эти две таблицы, используя Java-код потока данных. WithKeys (org.apache.beam.sdk.transforms.WithKeys) принимает прямое имя столбца, и это не позволяет, как firstTable.columnname. Может ли кто-нибудь помочь решить это дело. enter image description here

1 Ответ

1 голос
/ 02 апреля 2019

Если обе таблицы одинаково велики, рассмотрите возможность использования преобразования CoGroupByKey, описанного здесь . Перед этой операцией вам придется преобразовать ваши данные в две PCollections, набранные правильной клавишей.

Если одна таблица значительно меньше другой, то подача меньшего набора PCollection в качестве бокового ввода в ParDo по сравнению с большим набором PCollection, как описано здесь , может быть лучшим вариантом.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...