У меня есть несколько больших таблиц, сохраненных в s3 (для скорости), таких как ордера.Но некоторые таблицы этого не сделали, например, продукты и магазины. (Которые не позволяют экономить на s3)
Теперь я хочу объединить таблицу заказов и продуктов, проблема в том, как мне присоединиться к таблице, сохранить в разныхместо на искре?Текущее решение:
- спарк-чтение s3,
df.registerTempTable("orders")
- python / pandas, чтение mysql, преобразование в искровой DataFrame, затем
df.registerTempTable("products")
Поскольку я определил базу интерпретатора mysql на jdbc-интерпретаторе в spark, я могу использовать приведенный ниже код в spark.
%mysql
select * from stores where is_deleted=0 order by time_create
Поэтому мне интересно, как зарегистрировать приведенные выше результаты в качестве TempTable.