Многие обсуждения, которые я обнаружил в Интернете по поводу распределения ресурсов, были посвящены настройке максимальной памяти для --executor-memory с учетом нескольких накладных расходов памяти.
Но я хотел бы представить, что для такой простой работы, как чтение в файле размером 100 МБ и подсчет количества строк с кластером общей памяти 500 ГБ, доступным по узлам, я не должен спрашивать о количестве исполнителей и памятиРаспределение, которое, с учетом всех накладных расходов памяти, может занять все 500 ГБ памяти, верно?Даже 1 исполнитель 3 ГБ или 5 ГБ памяти кажется излишним.Как я должен думать о правильном объеме памяти для работы?
Спасибо!