Я использую версию spark-2.0.2-bin-hadoop2.6 в режиме кластера StandAlone, и у меня есть один главный узел и два рабочих узла.
Я назначил 6 исполнителей для своего приложения, и эти исполнители работают на следующих узлах: -
on MasterNode : 2 executors(with 1gb RAM and 1 core for each executor)
on WorkerNode1 : 2 executors(with 1gb RAM and 1 core for each executor)
on WorkerNode2 : 2 executors(with 1gb RAM and 1 core for each executor)
А мое приложение получает данные от kafka и применяет некоторую логику к входящим данным, а затем записывает эти записи в Cassandra в качестве кадра данных?
Пожалуйста, помогите мне.
Заранее спасибо
иногда для запуска задания требуется слишком много времени, и данные постоянно извлекаются из kafka, и вся память, выделенная исполнителям, полностью расходуется.
Так есть ли какой-нибудь подход, чтобы ускорить мое искровое приложение.