Question

Я пытаюсь сделать это главным образом потому, что мне нужно сохранять данные из одного потока в две таблицы cassandra, они имеют почти одинаковую схему, но разные первичные ключи для обслуживания двух запросов.

Будет

rdd.saveToCassandra(keySpace, tableOne, allColumn)
rdd.saveToCassandra(keySpace, tableTwo, allColumn)

делать работу?

Это нормально? Я немного погуглил, и кто-то сказал, что это может вызвать проблемы с производительностью, когда значение rdd велико:

https://groups.google.com/a/lists.datastax.com/forum/#!topic/spark-connector-user/e1nfWWyhZRo

Vladislav Varslavans · Answer 1 · 15 мая 2018

Это нормально. Чтобы избежать проблем с производительностью, вам необходимо cache ваш СДР перед первым использованием, например:

rdd.cache()

Также после использования хорошей практикой будет unpersist ваш RDD следующим образом:

rdd.unpersist()

Как сохранить один и тот же rdd для нескольких таблиц cassandra?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сохранить один и тот же rdd для нескольких таблиц cassandra?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы