В Spark SQL есть два варианта отправки sql.
spark-sql
, за каждый sql запускается новое приложение Spark.
Spark JDBC Server and Beeline
, Jdbc Server на самом деле является долгосрочным автономным искровым приложением, и отправленные ему sqls будут совместно использовать ресурсы
У нас около 30 больших SQL-запросов, каждый из которых хотел бы занять 200 ядер и 800 ГБ, чтобы закончить в разумные сроки (30 минут).
Начиная с spark-sql and jdbc server/beeline
, какой вариант лучше для моего случая?
Мне бы хотелось использовать spark-sql
, и я не знаю, сколько ресурсов нужно выделить серверу jdbc, чтобы мои запросы были завершены в разумные сроки.
Если я могу отправить 30 запросов на Jdbc-сервер, то сколько ресурсов (ядер / памяти) этому Jdbc-серверу следует предоставить (5000+ ядер и 10T + памяти?)?