Настройка производительности Spark-SQL с помощью подсказок - PullRequest
0 голосов
/ 30 июня 2019

Я разработчик, и недавно меня пригласили в команду, где нам нужно работать над Spark-SQL. Несмотря на то, что я из SQL-среды (Teradata / Oracle / SQL Server), я совершенно новичок в Spark-SQL. Моя роль заключается в настройке запросов Spark-SQL. Поэтому я ищу онлайн-ресурсы по следующим темам: -

1) Spark-SQL architecture (Types of Joins etc)
2) Performance tuning by interpreting Explain plans
3) Spark-SQL Hints

Может ли кто-нибудь указать мне какие-либо материалы курса / книги по вышеуказанным темам? Я искал в Интернете, но не нашел ничего особенного.

Помимо вышесказанного, у меня также есть несколько вопросов по следующим предложениям Spark-SQL: -

1) Distribute By
2) Cluster By
3) Lateral View
4) Repeat

Может кто-нибудь проиллюстрировать примерами.

Спасибо

...