Итак, высокоуровневый ответ на
Java API mongoDB + Java API HDFS, против соединителя Spark MongoDB
Что вы хотите понять, так это то, что Sparkне размещает данные только на краевом узле.Он работает параллельно.Параллельная загрузка данных при условии, что коллекция Mongo позволяет это сделать.
По сравнению с прямым API Java (или даже с дампом коллекции), плюс загрузка, а затем да, краевой узел или где-то еще узкое место (и единственная точка отказа)
Возможно, лучшая архитектура предполагает использование Debezium для потоковой передачи событий Mongo в виде отдельных записей в тему Kafka, затем вы можете обрабатывать события в режиме реального времени по мере их поступления в Kafka, при желании очищать их, а затем отправлять их в Hadoop, графическую базу данных., поисковая система и т. д. (и Spark здесь не требуется)