Как найти размер (в МБ) фрейма данных в pyspark? - PullRequest
1 голос
/ 16 июня 2020

Как найти размер (в МБ) фрейма данных в pyspark,

df = spark.read. json ("/ Filestore / tables / test. json") Я хочу узнать, как размер df или test. json

1 Ответ

1 голос
/ 16 июня 2020

В общем это непросто. Вы можете

  • использовать org.apache.spark.util.SizeEstimator
  • использовать подход, который включает кеширование, см., Например, { ссылка }
  • используйте df.inputfiles() и используйте другой API, чтобы получить размер файла напрямую (я сделал это с помощью Had oop Filesystem API ( Как получить размер файла ). Это не работает только в том случае, если фрейм данных не был объединен / агрегирован
...