Azure Производительность Data Factory Data Flow низкая при обработке отдельных файлов - PullRequest
0 голосов
/ 01 марта 2020

У меня есть Azure Поток данных с очень простым потоком данных, который занимает намного больше времени, чем я ожидаю. Поток извлекает файлы JSON из хранилища BLOB-объектов Azure, добавляет несколько новых столбцов и сохраняет их в базе данных Cosmos (см. Изображение ниже)

Azure Data Flow

Файлы JSON очень маленькие, размером от 1 до 15 КБ, и в настоящее время у меня есть ~ 200 000 файлов в контейнере BLOB-объектов.

Когда я пытался выполнить этот поток данных в конвейере Сам по себе, я позволил ему работать более 8 часов, прежде чем отменить действие. Затем я перенес данные в учетную запись Premium Storage и снова запустил действие, подумав, что, возможно, узким местом является SA. Он работает уже почти 2 часа, и я не видел никаких вставок в Cosmos DB. Экран монитора показывает следующее:

Data Flow monitor

Data Flow activity

Существует ли какая-либо конфигурация, которая может быть причиной того, что эта задача займет так много времени?

Я попытался удалить из контейнера все файлы, кроме 10, и процесс завершился почти за 7 минут. Это нормально? Стоит ли ожидать, что процесс займет 140000 минут?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...