Блоки данных Создайте список фреймов данных с указанием их размера. - PullRequest
0 голосов
/ 19 октября 2018

Я работаю с Databricks и хочу получить список всех моих фреймов данных с их количеством наблюдений.

Возможно ли иметь размер (количество строк) для каждого кадра данных в DataLake?

Я нашел, как составить список всех фреймов данных:

display(dbutils.fs.ls("dbfs:/mnt/adls/fraud/qal/landing"))*

Я знаю, как его посчитать.

Можно ли иметь список моих данных и их размер?

Спасибо,

1 Ответ

0 голосов
/ 20 октября 2018

Вы можете создать DataFrame из списка файлов и количества строк.Следующий код предполагает, что все ваши таблицы в формате Parquet.Если это не так, вам нужно изменить код чтения.

def namesAndRowCounts(root: String) =
  spark.createDataFrame(
    dbutils.fs.ls(root).map { info =>
      (info.name, spark.read.load(info.path).count)
    }
  ).toDF("name", "rows").orderBy('name)

display(namesAndRowCounts("/mnt/adls/fraud/qal/landing"))
...