У меня есть удаленный файл в S3 (или другой), и мне нужна схема файла.Я не нашел опцию для выборки данных, как для JSON (e.g. read.option("samplingRation", 0.25)
).
Есть ли способ оптимизировать чтение схемы?
Spark считывает весь файл CSV поверхсеть перед возвратом выведенной схемы.Для больших файлов это может занять довольно много времени.
.option("samplingRatio", samplingRatioVal)
не работает на csv