Question

Я новичок в фабрике данных Azure и работаю над проверкой концепции для своей организации, мне сложно получить хорошую информацию по довольно простым вещам, и я надеюсь, что кто-то может указать мне на некоторыехорошие ресурсы для моего случая использования.

Я знаю, что этот вопрос довольно общий, но любая помощь будет полезна.Сейчас я хожу кругами и чувствую, что трачу много времени.Что-то, что заняло бы у меня несколько минут в ssis, заняло несколько часов исследований, и я до сих пор не достиг большого прогресса.

Вот пример использования:

Приходит архив gzipв хранилище BLOB-объектов каждый час в нем содержится несколько файлов .tsv, но я хочу извлечь один, содержащий данные потока веб-кликов.
Я хочу извлечь этот файл .tsv из архива, добавитьdatetime к имени и затем сохраните его в хранилище озера данных Azure.
Я хочу, чтобы это происходило каждый раз, когда поступает новый архив gzip.

Пока у меня есть:

Настройка Azure Data Factory V2
Настройка связанной службы с контейнером BLOB-объектов
Настройка связанной службы с хранилищем озера данных Gen1
Я думаю, что все разрешения ипроблемы брандмауэра, отсортированные для доступа ADF к хранилищу.

Является ли фабрика данных Azure правильным инструментом для этой работы?и если да, куда мне идти отсюда?Как построить наборы данных и конвейер для достижения варианта использования и как запланировать его запуск при получении нового zip-файла?

Wang Zhang · Answer 1 · 28 сентября 2018

Сборка Azure Data Factory для сложных гибридных проектов извлечения-преобразования-загрузки (ETL), извлечения-загрузки-преобразования (ELT) и интеграции данных, которая также является подходящим инструментом для этой работы.Основываясь на текущих знаниях, вам необходимо выполнить следующие настройки в своей фабрике данных:

Создать конвейер для запуска всего рабочего процесса, в котором участвует Операция копирования ,исходный набор данных - blob , а набор данных приемника - хранилище озера данных Gen1 .Обратите внимание, что исходный набор данных BLOB-объектов ссылается на связанный сервис BLOB-объектов, а хранилище озера данных приемника Gen1 ссылается на хранилище озера данных Gen1.1013 *, это позволяет ADF считывать сжатые данные GZIP из большого двоичного объекта.
Использовать триггер события для запуска конвейера при каждом поступлении нового архива gzip.

С чего начать с фабрикой данных Azure

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

С чего начать с фабрикой данных Azure

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы