Я пытаюсь перенести запрос в pyspark, и мне нужно объединить в нем несколько таблиц. Все таблицы в Redshift, и я использую разъем jdb c, чтобы поговорить с ними.
Моя проблема в том, как сделать эти объединения оптимальным образом, не считывая слишком много данных (т. Е. Загрузить таблицу и соединение по ключу), и просто без явного использования:
spark.sql("""join table1 on x=y join table2 on y=z""")
Есть ли способ отправить запросы в Redshift, но при этом использовать API Spark df для записи логики c, а также использовать df из контекста spark без сохранения их в Redshift только для объединений?