как обрабатывать переменные заголовки столбцов (расположение строк) в фабрике данных Azure - PullRequest
0 голосов
/ 03 июня 2019

Мы принимаем данные от нескольких клиентов и не контролируем формат данных.Данные относятся к той же теме, но имена файлов, имена столбцов, заголовки и заголовки строк являются переменными.Возможности дрейфа схемы в отображении потока данных выглядят так, как будто он будет обрабатывать имена файлов и столбцов переменных, но я не уверен, как лучше всего учитывать тот факт, что заголовки столбцов могут быть в строке 1, 2 или 10 и т. Д. Ранее мы использовали некоторыеКод Python, чтобы понять это, есть ли какая-либо возможность в фабрике данных приспособиться к этому уровню изменчивости?

1 Ответ

0 голосов
/ 05 июня 2019

Вам понадобится правило, чтобы определить, какая строка имеет заголовки.Затем вы можете использовать преобразование «Фильтр», чтобы отфильтровать строку заголовка из строк данных.

Но если вам нужны имена заголовков в потоке, вам сначала нужно будет запустить этот файл черезотдельный поток данных, который перезаписывает файл со строкой заголовка в качестве первой строки.

Это можно сделать, добавив 2 источника в поток данных, оба из которых указывают на один и тот же файл.Затем отфильтруйте строку заголовка OUT из одного источника и отфильтруйте IN только строку заголовка во 2-м источнике.

Объедините эти два потока вместе и запишите в новый файл в Sink.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...