Я бы хотел найти размер сотен каталогов.В этих каталогах есть тонны файлов, и поэтому я хотел бы сделать это с Spark (pyspark).
Без Spark он отлично работает с os.path.getsize()
, но мне нужна аналогичная функция в Spark.До сих пор я успешно посчитал количество файлов с помощью следующей строки кода:
files = spark.sparkContext.wholeTextFiles("/mnt/mal/" + str(i) + "/*.txt").count()
Спасибо за любую помощь!