Поиск строки слова или целого числа в каталоге с использованием scala - PullRequest
0 голосов
/ 28 сентября 2019

Нужно искать слово или число в папке, которая содержит 100 CSV-файлов, используя scala и spark.Может ли кто-нибудь помочь мне, как это сделать?

1 Ответ

0 голосов
/ 28 сентября 2019

Итак, вы хотите читать файлы на основе определенных условий и возвращать вывод.Для этого сначала вам нужно создать DataFrame из ваших CSV-файлов.Затем к этому DataFrame примените требуемое условие фильтрации, а затем вы можете вызвать действие для сбора ваших данных.

Допустим, у нас есть пример файла CSV следующим образом:

DEST_COUNTRY_NAME,ORIGIN_COUNTRY_NAME,count
United States,Romania,15
United States,Croatia,1
United States,Ireland,344
Egypt,United States,15

, и мы хотим фильтровать на основе DEST_COUNTRY_NAME и считать, который для нашего примера является США и больше 10. Нижепример программы.

val dataframe = spark
          .read
          .option("inferSchema", true)
          .option("header", true)
          .csv("/path-to-csv-file/*.csv")

dataframe.where(col("DEST_COUNTRY_NAME") === "United States")
  .where(col("count") > 10)
  .show(false);
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...