Очевидно, что вам понадобится более одной машины для обработки с прерываниями
Вы должны прочитать документацию Spark по настройке одного из следующих
- Spark Standalone
- Apache YARN
- Apache Mesos
- Kubernetes
Или вы можете найти программы, предлагаемые сообществом, такие как Hashicorp Nomad - https://learn.hashicorp.com/nomad/spark/pre
Вы также захотите использовать распределенную файловую систему, такую как HDFS или Ceph, потому что, если у вас действительно большой набор данных, считывание его с одного диска станет вашим узким местом
Если вам просто нужен анализ логов, Apache Hive / Presto / Drill или Elasticsearch, вероятно, будет более оптимальным, чем Spark