Как мне написать CSV-файл, взяв таблицу Кассандры в качестве входных данных, используя Spark? - PullRequest
0 голосов
/ 20 января 2019

Если масштаб данных огромен и постоянно растет, как мне записать данные в файл CSV из таблицы Кассандры с помощью Spark?Проблема масштабная, не связана с какими-либо проблемами, связанными с инфраструктурой, из-за моего собственного кода;следовательно, прося хорошо проверенные инструменты и методы.На аналогичной ноте, является ли искра лучшим выбором в отношении скорости?

Схема таблицы в Кассандре:

c_sql = "CREATE TABLE IF NOT EXISTS {} (id varchar, version int, row varchar, row_hash varchar, PRIMARY KEY((version), id))".format(
            self.table_name
        )

1 Ответ

0 голосов
/ 21 января 2019

Для считывания данных в фрейм данных вы можете использовать разъем Datastax Spark-Cassandra.Вот ссылка с примерами, как читать данные из Cassandra в dataframe: https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

daraframe=spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load()

Тогда вы можете просто записать данные в csv:

dataframe.write.csv('/path/to/file.csv')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...