Question

Если масштаб данных огромен и постоянно растет, как мне записать данные в файл CSV из таблицы Кассандры с помощью Spark?Проблема масштабная, не связана с какими-либо проблемами, связанными с инфраструктурой, из-за моего собственного кода;следовательно, прося хорошо проверенные инструменты и методы.На аналогичной ноте, является ли искра лучшим выбором в отношении скорости?

Схема таблицы в Кассандре:

c_sql = "CREATE TABLE IF NOT EXISTS {} (id varchar, version int, row varchar, row_hash varchar, PRIMARY KEY((version), id))".format(
            self.table_name
        )

Serge Harnyk · Answer 1 · 21 января 2019

Для считывания данных в фрейм данных вы можете использовать разъем Datastax Spark-Cassandra.Вот ссылка с примерами, как читать данные из Cassandra в dataframe: https://github.com/datastax/spark-cassandra-connector/blob/master/doc/15_python.md

daraframe=spark.read\
    .format("org.apache.spark.sql.cassandra")\
    .options(table="kv", keyspace="test")\
    .load()

Тогда вы можете просто записать данные в csv:

dataframe.write.csv('/path/to/file.csv')

Как мне написать CSV-файл, взяв таблицу Кассандры в качестве входных данных, используя Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне написать CSV-файл, взяв таблицу Кассандры в качестве входных данных, используя Spark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы