Сохранение Scala SQL-вывода в виде DataFrame - PullRequest
1 голос
/ 18 апреля 2019

У меня есть следующий скрипт для запуска SQL-запроса:

val df_joined_sales_partyid = spark.sql(""" SELECT a.sales_transaction_id, b.customer_party_id, a.sales_tran_dt
                                            FROM df_sales_tran a 
                                            JOIN  df_sales_tran_party_xref b
                                            ON a.sales_transaction_id = b.sales_transaction_id
                                            Limit 3""")

Я хочу знать, как сохранить выходные данные этого запроса в виде постоянной таблицы фреймов данных. Я заметил, что каждый раз, когда я запускаю display(df_joined_sales_partyid), кажется, что он снова запускает запрос. Как избежать многократного выполнения запроса и сохранить результаты в таблицу фреймов данных. Я новичок в написании Scala, так что прости меня, если это простой вопрос, но я не смог найти решение в Интернете.

1 Ответ

1 голос
/ 18 апреля 2019
// caches results in memory
df_joined_sales_partyid.cache() 

// or

// memory and disk, see https://spark.apache.org/docs/2.4.0/api/java/index.html?org/apache/spark/storage/StorageLevel.html for other possible values
df_joined_sales_partyid.persist(StorageLevel.MEMORY_AND_DISK) 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...