Получение количества записей, прочитанных из таблицы Cassandra при использовании Spark Cassandra Connector - PullRequest
0 голосов
/ 20 апреля 2020

При записи в таблицу Cassandra я получаю ниже информацию о количестве записанных строк и затраченном времени. Из журнала я вижу, что он идет из класса TableWriter. Как я могу найти ту же информацию во время чтения с Кассандры, не вызывая действия на СДР? Я не уверен, какой метод используется для чтения.

2020-04-20 11:58:42 INFO  com.datastax.spark.connector.writer.TableWriter.logInfo:35 - Wrote 24 rows to my_keyspace.mytable in 0.153 s.


Код для записи искрового кадра данных в таблицу Кассандры

myDF.write
  .format("org.apache.spark.sql.cassandra")
  .mode(saveMode)
  .options(Map("keyspace" -> "my_keyspace", "table" -> "my_table"))
  .save()

Код для чтения таблицы Cassandra в искру RDD

val cassandraRDD = sparkSession.read
      .format("org.apache.spark.sql.cassandra")
      .options(Map( "table" -> "my_table", "keyspace" -> "my_keyspace", "pushdown" -> "true"))
      .load()

1 Ответ

0 голосов
/ 21 апреля 2020

Мне удалось получить показатели во время чтения тоже. Разница заключается в уровне регистрации этих метрик. На момент записи уровень журнала был INFO, и поэтому я смог найти эту информацию в журналах. Но во время записи эти показатели регистрируются с уровнем DEBUG. Я изменил уровень регистрации искры на DEBUG и смог видеть эти показатели.

Ссылка - https://community.datastax.com/questions/3512/getting-the-number-of-records-read-from-cassandra.html

...