Как использовать Dask на Databricks - PullRequest
0 голосов
/ 04 июня 2019

Я хочу использовать Dask на Databricks.Это должно быть возможно (я не понимаю, почему нет).Если я импортирую его, происходит одно из двух: либо я получаю ImportError, но когда я устанавливаю distributed для решения этой проблемы, DataBricks просто говорит Cancelled без каких-либо ошибок.

1 Ответ

0 голосов
/ 04 июня 2019

Я не думаю, что мы слышали о том, чтобы кто-нибудь использовал Dask под кирпичи данных, но пока это всего лишь Python, это вполне возможно.

Планировщик по умолчанию для Dask - это потоки, и это наиболее вероятная вещь. В этом случае вам даже не нужно устанавливать distributed.

Для Отмененной ошибки это звучит так, как будто вы используете распределенную, и, по-видимому, система не позволяет вам запускать дополнительные процессы (вы можете проверить это с помощью модуля subprocess). Чтобы обойти, вы могли бы сделать

client = dask.distributed.Client(processes=False)

Конечно, если вам действительно нужны процессы, это было бы не здорово. Кроме того, я понятия не имею, как вы могли бы выставить порт панели инструментов.

...