У меня есть фрейм данных R temp_df
с, скажем, 1000 уникальными идентификационными номерами. Я хотел бы извлечь данные из большой таблицы big_table
, используя sparklyr и в то же время внутреннее соединение с идентификаторами в temp_df. big_table
слишком велик, чтобы ввести его в мой сеанс R и выполнить соединение с фреймом данных.
Это то, чего я пытаюсь достичь (но, очевидно, неверный синтаксис):
library(sparklyr)
dbGetQuery(spark_connection,
'select a.*
from large_table a
inner join temp_df b on b.ID = a.ID')