Работа с большими данными о Dask Kubernetes в Azure Kubernetes Service (AKS) - PullRequest
1 голос
/ 02 июня 2019

Я хочу провести анализ набора данных (например, файла csv) объемом 8 ГБ, который находится на жестком диске моего ноутбука.Я уже настроил кластер dask kubernetes на AKS с 1 планировщиком и 3 рабочими по 7 ГБ каждый.

Как я могу работать с моим набором данных, используя этот кластер dask kubernetes на AKS?Какая файловая система для совместного использования набора данных между работником будет наилучшей для этой цели?

Любое предложение, где я должен хранить этот набор данных, чтобы я мог легко работать с этим набором данных.

Методдолжен работать как с ноутбука Jupyter, так и из файла Python.

1 Ответ

0 голосов
/ 02 июня 2019

Возможно, вы захотите загрузить свои данные в хранилище BLOB-объектов Azure. Дополнительную информацию об удаленных данных dask (включая Azure) можно найти здесь:

https://docs.dask.org/en/latest/remote-data-services.html

...