Я новичок в использовании искры и пытаюсь получить огромные данные (4 миллиона записей) через искру от Кассандры в Java и группе по поисковому коду, но это занимает много времени (50 минут), чтобы получить данные, составляющие 76 РАЗДЕЛОВ и каждыйPARTITION занимает 30 секунд, и я ожидаю быстрого поиска, поэтому любые предложения от любого тела по этому коду.
Заранее спасибо, и мои фляги:
----------
compile group: 'com.datastax.spark', name: 'spark-cassandra-connector_2.11', version: '2.4.1'
compile group: 'org.apache.spark', name: 'spark-streaming_2.11', version: '2.4.0'
compile group: 'org.apache.spark', name: 'spark-core_2.11', version: '2.4.0'
compile group: 'org.apache.spark', name: 'spark-sql_2.11', version: '2.4.0'
testCompile group: 'org.apache.spark', name: 'spark-catalyst_2.11', version: '2.4.0'
----------
И мой код
1007 *