Question

Я могу использовать dask.dataframe.read_sql_table для чтения данных, например, df = dd.read_sql_table(table='TABLE', uri=uri, index_col='field', npartitions=N)

Какие будут следующие (лучшие) шаги для сохранения их в виде файла паркета в Azure хранилище BLOB-объектов?

Из моего небольшого исследования есть несколько вариантов:

Сохранить локально и использовать https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-blobs?toc= / azure / storage / blobs / до c. json (не подходит для больших данных)
Я считаю, adlfs предназначено для чтения из BLOB-объектов
использование dask. dataframe.to_parquet и выяснить, как указать на контейнер BLOB-объекта
потребление проект (не уверен, с чего начать)

Ray Bell · Answer 1 · 20 марта 2020

$ pip install adlfs

dd.to_parquet(
    df=df, 
    path='absf://{BLOB}/{FILE_NAME}.parquet', 
    storage_options={'account_name': 'ACCOUNT_NAME',
                     'account_key': 'ACCOUNT_KEY'},
    )

Перемещение данных из базы данных в Azure хранилище BLOB-объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перемещение данных из базы данных в Azure хранилище BLOB-объектов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы