Чтение из таблиц Hive и запись в таблицы Cassandra - PullRequest
0 голосов
/ 17 июня 2020

У меня есть несколько внешних таблиц в Hive в кластере Cloudera, разделенных столбцом daily_date.

У меня также есть кластер DataStax Enterprise Cassandra, в котором я создал таблицы, аналогичные структуре таблиц Hive.

Вопрос: Я хочу экспортировать / записать данные таблиц из таблиц Hive в соответствующие таблицы Cassandra.

Доступен ли какой-либо соединитель Hive to Cassandra? Или мне нужно сделать это в Spark, если да. Как? Какая здесь лучшая практика / решение?

Я пробовал использовать в Google много разных ключевых слов, но не нашел ни одного правильного / рекомендуемого решения.

Пожалуйста, помогите.

1 Ответ

1 голос
/ 17 июня 2020

Просто используйте Spark с Spark Cassandra Connector , лучше с API-интерфейсами Dataframe . Получите доступ к данным в Hive как , как описано в документации Spark , и после получения фрейма данных запишите его в Cassandra. Примерно так:

// assuming that table is registered already:
val df = sql("SELECT * from hive_table")
df.write
  .format("org.apache.spark.sql.cassandra")
  .options(Map("table" -> "...", "keyspace" -> "..."))
  .save()
...