Question

Нужно искать слово или число в папке, которая содержит 100 CSV-файлов, используя scala и spark.Может ли кто-нибудь помочь мне, как это сделать?

Madstuffs · Answer 1 · 28 сентября 2019

Итак, вы хотите читать файлы на основе определенных условий и возвращать вывод.Для этого сначала вам нужно создать DataFrame из ваших CSV-файлов.Затем к этому DataFrame примените требуемое условие фильтрации, а затем вы можете вызвать действие для сбора ваших данных.

Допустим, у нас есть пример файла CSV следующим образом:

DEST_COUNTRY_NAME,ORIGIN_COUNTRY_NAME,count
United States,Romania,15
United States,Croatia,1
United States,Ireland,344
Egypt,United States,15

, и мы хотим фильтровать на основе DEST_COUNTRY_NAME и считать, который для нашего примера является США и больше 10. Нижепример программы.

val dataframe = spark
          .read
          .option("inferSchema", true)
          .option("header", true)
          .csv("/path-to-csv-file/*.csv")

dataframe.where(col("DEST_COUNTRY_NAME") === "United States")
  .where(col("count") > 10)
  .show(false);

Поиск строки слова или целого числа в каталоге с использованием scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск строки слова или целого числа в каталоге с использованием scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов