Как сохранить один и тот же rdd для нескольких таблиц cassandra? - PullRequest
0 голосов
/ 15 мая 2018

Я пытаюсь сделать это главным образом потому, что мне нужно сохранять данные из одного потока в две таблицы cassandra, они имеют почти одинаковую схему, но разные первичные ключи для обслуживания двух запросов.

Будет

rdd.saveToCassandra(keySpace, tableOne, allColumn)
rdd.saveToCassandra(keySpace, tableTwo, allColumn)

делать работу?

Это нормально? Я немного погуглил, и кто-то сказал, что это может вызвать проблемы с производительностью, когда значение rdd велико:

https://groups.google.com/a/lists.datastax.com/forum/#!topic/spark-connector-user/e1nfWWyhZRo

1 Ответ

0 голосов
/ 15 мая 2018

Это нормально. Чтобы избежать проблем с производительностью, вам необходимо cache ваш СДР перед первым использованием, например:

rdd.cache()

Также после использования хорошей практикой будет unpersist ваш RDD следующим образом:

rdd.unpersist()
...