С чего начать с фабрикой данных Azure - PullRequest
0 голосов
/ 28 сентября 2018

Я новичок в фабрике данных Azure и работаю над проверкой концепции для своей организации, мне сложно получить хорошую информацию по довольно простым вещам, и я надеюсь, что кто-то может указать мне на некоторыехорошие ресурсы для моего случая использования.

Я знаю, что этот вопрос довольно общий, но любая помощь будет полезна.Сейчас я хожу кругами и чувствую, что трачу много времени.Что-то, что заняло бы у меня несколько минут в ssis, заняло несколько часов исследований, и я до сих пор не достиг большого прогресса.

Вот пример использования:

  • Приходит архив gzipв хранилище BLOB-объектов каждый час в нем содержится несколько файлов .tsv, но я хочу извлечь один, содержащий данные потока веб-кликов.
  • Я хочу извлечь этот файл .tsv из архива, добавитьdatetime к имени и затем сохраните его в хранилище озера данных Azure.
  • Я хочу, чтобы это происходило каждый раз, когда поступает новый архив gzip.

Пока у меня есть:

  • Настройка Azure Data Factory V2
  • Настройка связанной службы с контейнером BLOB-объектов
  • Настройка связанной службы с хранилищем озера данных Gen1
  • Я думаю, что все разрешения ипроблемы брандмауэра, отсортированные для доступа ADF к хранилищу.

Является ли фабрика данных Azure правильным инструментом для этой работы?и если да, куда мне идти отсюда?Как построить наборы данных и конвейер для достижения варианта использования и как запланировать его запуск при получении нового zip-файла?

1 Ответ

0 голосов
/ 28 сентября 2018

Сборка Azure Data Factory для сложных гибридных проектов извлечения-преобразования-загрузки (ETL), извлечения-загрузки-преобразования (ELT) и интеграции данных, которая также является подходящим инструментом для этой работы.Основываясь на текущих знаниях, вам необходимо выполнить следующие настройки в своей фабрике данных:

  1. Создать конвейер для запуска всего рабочего процесса, в котором участвует Операция копирования ,исходный набор данных - blob , а набор данных приемника - хранилище озера данных Gen1 .Обратите внимание, что исходный набор данных BLOB-объектов ссылается на связанный сервис BLOB-объектов, а хранилище озера данных приемника Gen1 ссылается на хранилище озера данных Gen1.1013 *, это позволяет ADF считывать сжатые данные GZIP из большого двоичного объекта.
  2. Использовать триггер события для запуска конвейера при каждом поступлении нового архива gzip.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...