Как сгруппировать по нескольким динамическим c столбцам или эквивалентным в отображении потока данных? - PullRequest
0 голосов
/ 23 апреля 2020

У меня есть несколько наборов файлов в azure data lake gen2. Каждый набор файлов имеет одинаковую схему, но схема сильно различается между наборами. Содержимое файлов в наборе в основном содержит те же избыточные данные - от которых я хочу избавиться.

В основном, мне нужно загрузить данные из всех файлов в наборе в новый целевой файл, группирующийся по всем столбцам, кроме одного агрегированного столбца (скажем, для ясности это столбец типа LoadTime). Я пытаюсь придумать способ сделать это без какой-либо указанной схемы в отображении потока данных. У меня была идея использовать компонент Aggregate, но это, похоже, не позволяет иметь шаблон столбцов для группы по частям (вы можете иметь шаблон столбцов для агрегированных столбцов в агрегатном компоненте).

(Можно также сгруппировать по ВСЕМ столбцам, но, если возможно, добавить некоторую дату на основе имени исходного файла на более поздней стадии)

Есть идеи о том, как этого добиться?

Полагаю, я могу получить структуру (имена столбцов) файла динамически с помощью get metadata actitity в конвейере и передать некоторую строку с ними в поток данных через параметр - но я не вижу четкого пути вперед от там тоже.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...