Я новичок в фабрике данных Azure и работаю над проверкой концепции для своей организации, мне сложно получить хорошую информацию по довольно простым вещам, и я надеюсь, что кто-то может указать мне на некоторыехорошие ресурсы для моего случая использования.
Я знаю, что этот вопрос довольно общий, но любая помощь будет полезна.Сейчас я хожу кругами и чувствую, что трачу много времени.Что-то, что заняло бы у меня несколько минут в ssis, заняло несколько часов исследований, и я до сих пор не достиг большого прогресса.
Вот пример использования:
- Приходит архив gzipв хранилище BLOB-объектов каждый час в нем содержится несколько файлов .tsv, но я хочу извлечь один, содержащий данные потока веб-кликов.
- Я хочу извлечь этот файл .tsv из архива, добавитьdatetime к имени и затем сохраните его в хранилище озера данных Azure.
- Я хочу, чтобы это происходило каждый раз, когда поступает новый архив gzip.
Пока у меня есть:
- Настройка Azure Data Factory V2
- Настройка связанной службы с контейнером BLOB-объектов
- Настройка связанной службы с хранилищем озера данных Gen1
- Я думаю, что все разрешения ипроблемы брандмауэра, отсортированные для доступа ADF к хранилищу.
Является ли фабрика данных Azure правильным инструментом для этой работы?и если да, куда мне идти отсюда?Как построить наборы данных и конвейер для достижения варианта использования и как запланировать его запуск при получении нового zip-файла?