Question

Я работаю над кластером с главным и двумя подчиненными узлами.

Я запускаю '' 'spark-submit --class' PropertyTables '--master spark: //172.17.67.122: 7077 /etc/rdfbenchmarkingproject_2.12-0.1.jar'''

И ошибка: org.apache.spark.SparkException: Не удалось выполнить трансляцию в течение 300 секунд

В классе PropertyTables я загружаю 3 файла CSV (размеры 1G, 1G, 100 МБ) и запускаю для них следующий запрос JOIN:

SELECT DISTINCT
    D.title AS title
FROM
    Publication P
    JOIN Document D  ON D.document=P.publication
    JOIN Reference R ON P.publication=R.cited
WHERE
    P.publication NOT IN (
        SELECT cited
        FROM Reference R2
        WHERE R2.document NOT IN (
            SELECT cited FROM Reference R3
        )
    )

Я пробовал уже предложенные решения:

сохраняются 3 таблицы.

Результат: java.util. concurrent.TimeoutException: время фьючерса истекло после [300 секунд]

add --conf spark.sql.autoBroadcastJoinThreshold = -1

Результат:java.util.concurrent.TimeoutException: время фьючерса истекло после [300 секунд]

добавить --conf spark.sql.broadcastTimeout = 7200

Result: java.util.concurrent.TimeoutException: время фьючерса истекло после [7200 секунд]

Может кто-нибудь помочь, пожалуйста?

org.apache.spark.SparkException: не удалось выполнить трансляцию за 300 секунд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

org.apache.spark.SparkException: не удалось выполнить трансляцию за 300 секунд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы