Spark несколько CSV читает? - PullRequest
       5

Spark несколько CSV читает?

0 голосов
/ 07 января 2020

В своем искровом приложении я читаю ONCE каталог со многими CSV. Но в DAG я вижу несколько чтений CSV.

  • Почему искра читает несколько раз CSV, или это не настоящее представление; и фактически Spark читает их один раз.

Снимок экрана Spark UI: enter image description here

1 Ответ

0 голосов
/ 08 января 2020

Spark будет читать их несколько раз, если DataFrame не кэшируется.


    val df1 = spark.read.csv("path")
    val df2_result = df1.filter(.......).save(......)
    val df3_result = df1.map(....).groupBy(...).save(......)

Здесь df2_result и df3_result оба приведут к перестроению df1 из файлов csv. Чтобы избежать этого, вы можете кешировать вот так. DF1 будет собран один раз из CSV, а второй раз он не будет собран из файлов.


    val df1 = spark.read.csv("path")
    df1.cache()
    val df2_result = df1.filter(.......).save(......)
    val df3_result = df1.map(....).groupBy(...).save(......)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...