Используйте Spark SQL JDBC Server / Beeline или spark-sql - PullRequest
1 голос
/ 22 марта 2019

В Spark SQL есть два варианта отправки sql.

  1. spark-sql, за каждый sql запускается новое приложение Spark.

  2. Spark JDBC Server and Beeline, Jdbc Server на самом деле является долгосрочным автономным искровым приложением, и отправленные ему sqls будут совместно использовать ресурсы

У нас около 30 больших SQL-запросов, каждый из которых хотел бы занять 200 ядер и 800 ГБ, чтобы закончить в разумные сроки (30 минут).

Начиная с spark-sql and jdbc server/beeline, какой вариант лучше для моего случая? Мне бы хотелось использовать spark-sql, и я не знаю, сколько ресурсов нужно выделить серверу jdbc, чтобы мои запросы были завершены в разумные сроки.

Если я могу отправить 30 запросов на Jdbc-сервер, то сколько ресурсов (ядер / памяти) этому Jdbc-серверу следует предоставить (5000+ ядер и 10T + памяти?)?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...