ускорить задачу копирования в фабрике данных Azure - PullRequest
0 голосов
/ 25 июня 2019

У меня есть задание копирования, которое должно копировать 100 ГБ файлов Excel между двумя Azure DataLake.

 "properties": {
        "activities": [
            {
                "name": "Copy Data1",
                "type": "Copy",
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "source": {
                        "type": "AzureDataLakeStoreSource",
                        "recursive": true,
                        "maxConcurrentConnections": 256
                    },
                    "sink": {
                        "type": "AzureDataLakeStoreSink",
                        "maxConcurrentConnections": 256
                    },
                    "enableStaging": false,
                    "parallelCopies": 32,
                    "dataIntegrationUnits": 256
                },
                "inputs": [
                    {
                        "referenceName": "SourceLake",
                        "type": "DatasetReference"
                    }
                ],
                "outputs": [
                    {
                        "referenceName": "DestLake",
                        "type": "DatasetReference"
                    }
                ]
            }
        ],

моя пропускная способность составляет около 4 МБ / с. Поскольку я читаю здесь , это должно быть 56 МБ / с. Что я должен сделать, чтобы достичь этой пропускной способности?

1 Ответ

0 голосов
/ 27 июня 2019

Вы можете использовать Активы копирования Настройка производительности , чтобы помочь вам настроить производительность службы фабрики данных Azure вместе с операцией копирования.

Сводка :

Выполните эти шаги, чтобы настроить производительность службы фабрики данных Azure с действием копирования.

  1. Установите базовый уровень.На этапе разработки протестируйте свой конвейер, используя операцию копирования для репрезентативной выборки данных.Соберите подробности выполнения и характеристики производительности после мониторинга активности копирования.

  2. Диагностика и оптимизация производительности.Если наблюдаемая вами производительность не соответствует вашим ожиданиям, определите узкие места в производительности.Затем оптимизируйте производительность, чтобы устранить или уменьшить влияние узких мест.

В некоторых случаях при запуске операции копирования в фабрике данных Azure появляется сообщение «Советы по настройке производительности» наверх страницы мониторинга активности копирования, как показано в следующем примере.В сообщении указывается узкое место, определенное для данного прогона копирования.Он также подскажет, что нужно изменить, чтобы повысить пропускную способность копирования.

Ваш файл имеет размер около 100 ГБ.Но тестовые файлы для файловых хранилищ - это несколько файлов размером 10 ГБ.Производительность может быть разной.

Надеюсь, это поможет.

...