Настройка производительности Spark SQL - PullRequest
1 голос
/ 27 июня 2019

Я работаю в команде разработчиков ETL, в которой мы используем Spark-SQL для преобразования данных, последовательно создавая и обрабатывая несколько промежуточных временных представлений и, наконец, заканчивая другим временным представлением, данные которого затем копируются в папку целевой таблицы.
Однако в некоторых случаях наши запросы отнимают слишком много времени даже при работе с небольшим количеством записей (<~ 10 КБ), и мы пытаемся помочь во всех направлениях. </p>

Поэтому я хотел бы узнать и изучить детали настройки производительности Spark SQL (например, за кулисами, архитектуру и, самое главное, интерпретацию планов объяснения и т. Д.), Которые помогли бы мне изучить и создать прочную основу для данной темы. В прошлом у меня был опыт настройки производительности с помощью RDBMS (Teradata, Oracle и т. Д.).

Поскольку я очень новичок в этом, может кто-нибудь указать мне правильное направление, где я могу найти книги, учебные пособия, курсы и т. Д. По этому предмету. Я искал в Интернете и даже на нескольких онлайн-платформах обучения, но не смог найти ни одного всеобъемлющего учебника или ресурса, чтобы узнать это.

Пожалуйста, помогите! Заранее спасибо ..

...