спарк, как зарегистрировать jdbc результат как TempTable? - PullRequest
0 голосов
/ 26 декабря 2018

У меня есть несколько больших таблиц, сохраненных в s3 (для скорости), таких как ордера.Но некоторые таблицы этого не сделали, например, продукты и магазины. (Которые не позволяют экономить на s3)

Теперь я хочу объединить таблицу заказов и продуктов, проблема в том, как мне присоединиться к таблице, сохранить в разныхместо на искре?Текущее решение:

  1. спарк-чтение s3, df.registerTempTable("orders")
  2. python / pandas, чтение mysql, преобразование в искровой DataFrame, затем df.registerTempTable("products")

Поскольку я определил базу интерпретатора mysql на jdbc-интерпретаторе в spark, я могу использовать приведенный ниже код в spark.

%mysql
select * from stores where is_deleted=0  order by time_create

Поэтому мне интересно, как зарегистрировать приведенные выше результаты в качестве TempTable.

...