DBFS: как получить время последнего доступа к файлу DBFS в Datarbricks - PullRequest
0 голосов
/ 28 апреля 2020

Можно ли получить время, когда файл был открыт в последний раз, как ls -ltu перечислить все файлы, показать и отсортировать по времени доступа в Unix, используя dbutils. Это необходимо для получения статистики об ADLS-файле в заметке Databricks.

1 Ответ

1 голос
/ 29 апреля 2020

К сожалению, вы не можете использовать опцию ls -ltu при использовании утилит Databricks (DBUtils).

enter image description here

Использование: dbuitls.fs.ls Последовательность, возвращаемая командой ls, содержит следующие атрибуты:

enter image description here

Используйте Had oop API файловой системы для получить последнее время доступа к файловой системе DBFS в Azure Databricks.

Этот код использует метод listStatus файловой системы Had oop для сортировки файлов DBFS по времени модификации.

import org.apache.hadoop.fs._
val path = new Path("/mnt/abc")
val fs = path.getFileSystem(spark.sessionState.newHadoopConf)
val inodes = fs.listStatus(path).sortBy(_.getModificationTime)
inodes.filter(_.getModificationTime > 0).map(t => (t.getPath, t.getModificationTime, t.getLen)).foreach(println)

Example1: stat о файле ADLS в блокноте Databricks

enter image description here

Example2: stat о файле DBFS в Блокнот данных

enter image description here

...