org.apache.spark.SparkException: не удалось выполнить трансляцию за 300 секунд - PullRequest
0 голосов
/ 23 октября 2019

Я работаю над кластером с главным и двумя подчиненными узлами.

Я запускаю '' 'spark-submit --class' PropertyTables '--master spark: //172.17.67.122: 7077 /etc/rdfbenchmarkingproject_2.12-0.1.jar'''

И ошибка: org.apache.spark.SparkException: Не удалось выполнить трансляцию в течение 300 секунд


В классе PropertyTables я загружаю 3 файла CSV (размеры 1G, 1G, 100 МБ) и запускаю для них следующий запрос JOIN:

SELECT DISTINCT
    D.title AS title
FROM
    Publication P
    JOIN Document D  ON D.document=P.publication
    JOIN Reference R ON P.publication=R.cited
WHERE
    P.publication NOT IN (
        SELECT cited
        FROM Reference R2
        WHERE R2.document NOT IN (
            SELECT cited FROM Reference R3
        )
    ) 

Я пробовал уже предложенные решения:

  • сохраняются 3 таблицы.

Результат: java.util. concurrent.TimeoutException: время фьючерса истекло после [300 секунд]

  • add --conf spark.sql.autoBroadcastJoinThreshold = -1

Результат:java.util.concurrent.TimeoutException: время фьючерса истекло после [300 секунд]

  • добавить --conf spark.sql.broadcastTimeout = 7200

Result: java.util.concurrent.TimeoutException: время фьючерса истекло после [7200 секунд]

Может кто-нибудь помочь, пожалуйста?

...