Как получить размер каталога с множеством файлов с помощью spark? - PullRequest
0 голосов
/ 24 января 2019

Я бы хотел найти размер сотен каталогов.В этих каталогах есть тонны файлов, и поэтому я хотел бы сделать это с Spark (pyspark).

Без Spark он отлично работает с os.path.getsize(), но мне нужна аналогичная функция в Spark.До сих пор я успешно посчитал количество файлов с помощью следующей строки кода:

files = spark.sparkContext.wholeTextFiles("/mnt/mal/" + str(i) + "/*.txt").count()

Спасибо за любую помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...