Question

Я работаю в команде разработчиков ETL, в которой мы используем Spark-SQL для преобразования данных, последовательно создавая и обрабатывая несколько промежуточных временных представлений и, наконец, заканчивая другим временным представлением, данные которого затем копируются в папку целевой таблицы.
Однако в некоторых случаях наши запросы отнимают слишком много времени даже при работе с небольшим количеством записей (<~ 10 КБ), и мы пытаемся помочь во всех направлениях. </p>

Поэтому я хотел бы узнать и изучить детали настройки производительности Spark SQL (например, за кулисами, архитектуру и, самое главное, интерпретацию планов объяснения и т. Д.), Которые помогли бы мне изучить и создать прочную основу для данной темы. В прошлом у меня был опыт настройки производительности с помощью RDBMS (Teradata, Oracle и т. Д.).

Поскольку я очень новичок в этом, может кто-нибудь указать мне правильное направление, где я могу найти книги, учебные пособия, курсы и т. Д. По этому предмету. Я искал в Интернете и даже на нескольких онлайн-платформах обучения, но не смог найти ни одного всеобъемлющего учебника или ресурса, чтобы узнать это.

Пожалуйста, помогите! Заранее спасибо ..

Настройка производительности Spark SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Настройка производительности Spark SQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы