СУБД ДАННЫХ - PullRequest
       14

СУБД ДАННЫХ

0 голосов
/ 21 февраля 2019

Мне нужна некоторая ясность в СУБД Databricks.

Простыми базовыми терминами: что это такое, для чего это нужно и что оно мне позволяет делать?

Документация покирпичи данных, говорит об этом ..

"Файлы в DBFS сохраняются в хранилище BLOB-объектов Azure, поэтому вы не потеряете данные даже после завершения работы кластера."

Любое понимание поможет, не удалось найти документацию, которая подробно описывает ее с точки зрения архитектуры и использования

1 Ответ

0 голосов
/ 25 февраля 2019

У меня есть опыт работы с DBFS , это отличное хранилище, в котором хранятся данные, которые вы можете загрузить с локального компьютера, используя DBFS CLI !Настройка CLI немного сложнее, но когда вы справляетесь, вы можете легко перемещать целые папки в этой среде (не забывайте использовать -overwrite!)

  1. создавать папки
  2. загрузка файлов
  3. изменение, удаление файлов и папок

С помощью Scala вы можете легко извлекать данные, хранящиеся в этом хранилище, с помощью следующего кода:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/test.csv")
      .select(some_column_name)

Или прочитайте всю папку, чтобы обработать все csv доступные файлы:

val df1 = spark
      .read
      .format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("dbfs:/foldername/*.csv")
      .select(some_column_name)

Я думаю, что это легко использовать и изучать, я надеюсь, что вы найдете эту информацию полезной!

...