извлечение огромных данных из Кассандры с использованием искры с Java занимает много времени - PullRequest
0 голосов
/ 22 февраля 2019

Я новичок в использовании искры и пытаюсь получить огромные данные (4 миллиона записей) через искру от Кассандры в Java и группе по поисковому коду, но это занимает много времени (50 минут), чтобы получить данные, составляющие 76 РАЗДЕЛОВ и каждыйPARTITION занимает 30 секунд, и я ожидаю быстрого поиска, поэтому любые предложения от любого тела по этому коду.

Заранее спасибо, и мои фляги:

----------
compile group: 'com.datastax.spark', name: 'spark-cassandra-connector_2.11', version: '2.4.1'    
compile group: 'org.apache.spark', name: 'spark-streaming_2.11', version: '2.4.0'
compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.4.0'
compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.4.0'
testCompile group: 'org.apache.spark', name: 'spark-catalyst_2.11', version: '2.4.0'
----------

И мой код

1007 *
...