Итак, вы хотите читать файлы на основе определенных условий и возвращать вывод.Для этого сначала вам нужно создать DataFrame из ваших CSV-файлов.Затем к этому DataFrame примените требуемое условие фильтрации, а затем вы можете вызвать действие для сбора ваших данных.
Допустим, у нас есть пример файла CSV следующим образом:
DEST_COUNTRY_NAME,ORIGIN_COUNTRY_NAME,count
United States,Romania,15
United States,Croatia,1
United States,Ireland,344
Egypt,United States,15
, и мы хотим фильтровать на основе DEST_COUNTRY_NAME и считать, который для нашего примера является США и больше 10. Нижепример программы.
val dataframe = spark
.read
.option("inferSchema", true)
.option("header", true)
.csv("/path-to-csv-file/*.csv")
dataframe.where(col("DEST_COUNTRY_NAME") === "United States")
.where(col("count") > 10)
.show(false);