Среда разработки и производственная среда часто различаются по емкости (т. Е. Dev кластер сильно слабее, чем производственный кластер).
Учитывая, что объем данных одинаков в двух средах (путем создания поддельных данных или санации данных продукта), рациональным ответом будет «если он работает на меньшем кластере, он должен работать на большем». Но как насчет приложения Spark, в котором основная цель состоит в том, чтобы максимально эффективно использовать кластер для безопасного и максимально быстрого достижения результата, как я могу проверить оптимальные параметры искры, количество и размер разделов, приемлемый размер широковещательных переменных?