Я работаю над кластером с главным и двумя подчиненными узлами.
Я запускаю '' 'spark-submit --class' PropertyTables '--master spark: //172.17.67.122: 7077 /etc/rdfbenchmarkingproject_2.12-0.1.jar'''
И ошибка: org.apache.spark.SparkException: Не удалось выполнить трансляцию в течение 300 секунд
В классе PropertyTables я загружаю 3 файла CSV (размеры 1G, 1G, 100 МБ) и запускаю для них следующий запрос JOIN:
SELECT DISTINCT
D.title AS title
FROM
Publication P
JOIN Document D ON D.document=P.publication
JOIN Reference R ON P.publication=R.cited
WHERE
P.publication NOT IN (
SELECT cited
FROM Reference R2
WHERE R2.document NOT IN (
SELECT cited FROM Reference R3
)
)
Я пробовал уже предложенные решения:
Результат: java.util. concurrent.TimeoutException: время фьючерса истекло после [300 секунд]
- add --conf spark.sql.autoBroadcastJoinThreshold = -1
Результат:java.util.concurrent.TimeoutException: время фьючерса истекло после [300 секунд]
- добавить --conf spark.sql.broadcastTimeout = 7200
Result: java.util.concurrent.TimeoutException: время фьючерса истекло после [7200 секунд]
Может кто-нибудь помочь, пожалуйста?