В следующих двух примерах количество запущенных задач и соответствующее время выполнения означают, что параметры выборки не действуют, поскольку они аналогичны заданиям, запускаемым без каких-либо параметров выборки:
val df = spark.read.options("samplingRatio",0.001).json("s3a://test/*.json.bz2")
val df = spark.read.option("sampleSize",100).json("s3a://test/*.json.bz2")
Я знаю, что явные схемы лучше всего подходят для производительности, но в удобных случаях выборка полезна.
Впервые в Spark, я неправильно использую эти опции? Попытка того же подхода в PySpark, с теми же результатами:
df = spark.read.options(samplingRatio=0.1).json("s3a://test/*.json.bz2")
df = spark.read.options(samplingRatio=None).json("s3a://test/*.json.bz2")