Кто-нибудь знает, в чем разница между spark.read.format ("csv") и spark.read.csv?
Некоторые говорят, что "spark.read.csv" является псевдонимом "spark.read".format ("csv") ", но я увидел разницу между 2. Я провел эксперимент, выполняя каждую команду ниже с новым сеансом pyspark, чтобы не было кэширования.
DF1 занял 42 секунды, в то время как DF2 занял всего 10 секунд.Размер файла csv составляет 60+ ГБ.
DF1 = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("hdfs://bda-ns/user/project/xxx.csv")
DF2 = spark.read.option("header", "true").csv("hdfs://bda-ns/user/project/xxx.csv")
Причина, по которой я копаю эту проблему, заключается в том, что мне нужно выполнить объединение 2-х фреймов данных после фильтра, а затем записать обратно в hdfs, и это заняло очень много временивремя писать (все еще пишу после 16 часов ....)