Я очень новичок в PySpark.
Я запускаю сценарий (в основном создаю tfidf и прогнозирую 9 категориальных столбцов с его помощью) в Jupyter Notebook.При выполнении всех ячеек вручную требуется около 5 минут.При запуске того же скрипта из spark-submit это занимает около 45 минут.Что происходит?
Также происходит то же самое (избыточное время), если я запускаю код, используя python из терминала.
Я также устанавливаю конфигурацию в сценарии как
conf = SparkConf().set('spark.executor.memory', '45G').set('spark.driver.memory', '80G').set('spark.driver.maxResultSize', '20G')
Любая помощь приветствуется.Заранее спасибо.