Для файлов доступен только файл dbutils.fs.ls, который будет перечислять файлы в папке, включая размер файла.
Вы не можете получить статистику по CSV-файлу, не открыв его и не выполнив запрос - CSV - это текстовый файл.
Форматы, такие как паркет, хранят статистику распределения данных.Возможно, есть библиотеки Python и Scala, которые могут прочитать их для вас, если вы действительно этого хотите.
Если вы регистрируете файлы в виде таблицы в Databricks (Hive), то может быть создана статистика для оптимизации запросов.https://docs.databricks.com/spark/latest/spark-sql/language-manual/analyze-table.html
Эта ссылка содержит сведения о команде DESCRIBE для их просмотра.
Как и в таблицах SQL Server, статистика является распределением и является только оценочной.Например, они не дадут вам истинных нулевых значений.Оба используют их для улучшения производительности запросов, и при этом пользователи не намерены использовать статистику напрямую.
Также Databricks не является продуктом Microsoft.