Я новичок, чтобы зажечь. Я использую Azure Databricks
и пишу код на Python с PySpark
. Есть одна конкретная тема, которая меня смущает:
У узлов есть отдельная память (я не имею в виду RAM / кэш)? Или они все используют одно и то же хранилище? Если они совместно используют одно и то же хранилище, то могут ли два разных приложения, работающих в разных Spark Context
, обмениваться данными соответственно?
Я не понимаю, почему иногда мы ссылаемся на хранилище dbfs:/tmp/...
, а в других случаях мы ссылаемся/dbfs/tmp/
... Пример: если я использую пакет dbutils
из блоков данных, мы используем что-то вроде: dbfs:/tmp/...
для ссылки на каталог в файловой системе. Однако, если я использую обычный код Python, я говорю: /dbfs/tmp/
.
Ваша помощь очень ценится!