Как я могу скопировать большие файлы из одного каталога в другой каталог с меньшим временем в Data Lake через Databricks? - PullRequest
1 голос
/ 05 марта 2019

Я пытаюсь скопировать 20 ГБ файлов из одной папки в другую в Azure Data Lake и хочу добиться этого с помощью Data Bricks.Я пробовал приведенный ниже код, но это занимает больше часа.Может кто-нибудь предложить мне, как добиться этого менее чем за 20 минут ?

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")

Ответы [ 2 ]

0 голосов
/ 15 марта 2019

Лучшим вариантом было бы использовать dbutils.fs.

Это сделало бы это для вас:

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)
0 голосов
/ 06 марта 2019

Попытка использования библиотеки azure.datalake.store, более подробная информация здесь: https://github.com/Azure/azure-data-lake-store-python

Это должно предотвратить загрузку блоков данных и повторную загрузку файла.

...