Я использую Spark 2.4.4 и спарк-кассандра-разъем 2.4.1. Я делаю потоковое соединение C *. Код выглядит так:
foreachBatch { (df, batchId) =>
df
.rdd
.repartitionByCassandraReplica("ks", "tbl")
.leftJoinWithCassandraTable("ks", "tbl")
.on(SomeColumns("id"))
.map(...)
.toDF(...)
.write
.cassandraFormat("tbl", "ks")
.mode("Append")
.save()
Начиная с https://www.datastax.com/blog/2015/06/zen-and-art-spark-maintenance, Я должен увидеть некоторые данные от C *. Я видел только 2 этапа в искровом задании.
Stage Id Duration Input Output
1 1 s 27.7 KB
0 0.6 s 48.8 KB
На этапе 0 (указывается часть столбцов):
Inde ID Attempt Status Input Size/Records Write Time ...
0 0 0 SUCCESS 48.8 KB/987 23 ms
Размер ввода здесь выглядит как вход из моего потока.
На этапе 1:
Inde ID Attempt Status Output Size/Records Duration ...
0 1 0 SUCCESS 2.8 KB/99 0.4 s
Я не видел ввода от C *. Так можно ли определить размер чтения из C *, чтобы я мог убедиться, что нажатие произошло?
Спасибо