У меня есть простая работа, которая выбирает все записи из таблицы. Эта работа занимает ~ 40se c. завершить. Тот же запрос (выберите * из пользователей) в базе данных cassandra немедленно возвращает все результаты. В таблице ~ 180 записей. Spark Master имеет ~ 64 ГБ оперативной памяти и 10 ядер.
Я что-то не так делаю?
public static void main(String[] args) {
SparkConf conf = new SparkConf(true)
.setMaster("spark://172.16.0.179:7077")
.setJars(new String[] { "spark-cassandra-connector_2.11-2.4.0.jar" })
.set("spark.driver.extraJavaOptions", "-Dhttp.proxyHost=172.16.0.179 -Dhttp.proxyPort=3128 -Dhttps.proxyHost=172.16.0.179 -Dhttps.proxyPort=3128 ")
.setAppName("test")
.set("spark.cassandra.connection.host", "172.16.0.179")
.set("spark.executor.memory", "64g")
.set("spark.driver.memory", "6g")
SparkSession spark = SparkSession.builder()
.config(conf)
.getOrCreate();
SQLContext sqlContext = new org.apache.spark.sql.SQLContext(spark);
HashMap<String, String> options = new HashMap<String, String>();
options.put("keyspace", "testkeyspace");
options.put("table", "users");
sqlContext.read()
.format("org.apache.spark.sql.cassandra")
.options(options)
.load()
.show(10);
spark.stop();
}