PySpark и Cassandra: предикатное нажатие, байты ввода / вывода высоки в искре - PullRequest
0 голосов
/ 21 ноября 2018

У нас есть кластер Cassandra, и я пишу код pyspark для извлечения данных из Cassandra в кластер Spark, я проверил (объясните план), что предикатное нажатие применяется нормально, но в пользовательском интерфейсе приложения spark байты и выходные байты очень высоки (Вы можете проверить изображение).

Я использую "spark-cassandra-connector_2.11-2.3.2" и spark 2.3.0

через некоторое время Я получаю ошибку :

com.datastax.driver.core.exceptions.ReadFailureException: сбой Cassandra во время запроса на чтение при согласовании LOCAL_ONE (требуется 1 ответ, но ответили только 0 реплик, 1 ошибка)

Не в состоянии понять, что происходит.

объяснение плана:

Сканирование org.apache.spark.sql.cassandra.CassandraSourceRelation@4e037cc6 [creation_date # 0, action_type # 1, component # 2, source# 3, creation_time # 4, Additional_data # 5, email_id # 6, мобильный # 7, page_title # 8, page_url # 9, платформа # 10, ram_id # 11, реферер # 12, user_id # 13] PressedFilters: [IsNotNull (creation_date), * EqualTo (creation_date, 31-10-2018)], ReadSchema: ...

входные и выходные байты в пользовательском интерфейсе искры

...