Spark использует класс конфигурации Hadoop и API-интерфейсы FileSystem, главным образом, чтобы упростить интеграцию с другими системами в экосистеме Hadoop, и при этом нет необходимости по сути копировать все эти классы изначально в кодовую базу Spark.Другими словами, Spark - это среда обработки данных, а не интерфейс Filesytem или библиотека управления конфигурацией.
Когда вы загружаете версию Spark без-hadoop , это фактически означает, что у вас уже установлен Hadoop и он доступен в PATH
& classpath (через hadoop classpath
).Кроме того, на странице загрузки Spark написано "предоставленный пользователем" Hadoop, чтобы прояснить это.