Я разработчик, и недавно меня пригласили в команду, где нам нужно работать над Spark-SQL. Несмотря на то, что я из SQL-среды (Teradata / Oracle / SQL Server), я совершенно новичок в Spark-SQL. Моя роль заключается в настройке запросов Spark-SQL. Поэтому я ищу онлайн-ресурсы по следующим темам: -
1) Spark-SQL architecture (Types of Joins etc)
2) Performance tuning by interpreting Explain plans
3) Spark-SQL Hints
Может ли кто-нибудь указать мне какие-либо материалы курса / книги по вышеуказанным темам? Я искал в Интернете, но не нашел ничего особенного.
Помимо вышесказанного, у меня также есть несколько вопросов по следующим предложениям Spark-SQL: -
1) Distribute By
2) Cluster By
3) Lateral View
4) Repeat
Может кто-нибудь проиллюстрировать примерами.
Спасибо