Spark работает быстро, но я сомневаюсь, что вы сможете сэкономить 3 миллиона вычислений менее чем за 5 секунд и добавить их обратно в таблицу (даже в некоторых более дорогих случаях).Кроме того, поскольку данные будут распределены между несколькими работниками, сбор данных будет довольно дорогой операцией.
Я думаю, что вы, возможно, захотите по-другому подойти к дизайну и попробовать запустить свой процесс в кластере.Хотя я должен упомянуть, что на рынке есть несколько решений, которые быстрее Spark.