Потому что в конце источником и местом назначения является жесткий диск.
Конечно, но не обязательно жесткий диск HDFS.Может быть сервер Mysql или Kafka Broker.
Spark рекомендуется для обработки в реальном времени.Зачем ?Hadoop не может сделать то же самое?
Во-первых, Hadoop не является механизмом обработки - YARN обеспечивает абстракцию для обработки заданий, и многие приложения работают на YARN.Включая Flink, Storm / Heron, которые являются реже действующими потоковыми платформами в реальном времени (не уверены почему?) (Обычно загружаются Kafka, а не Hadoop).Spark выполняет «мини-пакеты» с минимальным порядком секунд, где другие фреймворки работают на еще меньших таймфреймах
В Hadoop я не могу создавать RDD, подобные концепции
RDD - это концепция Spark, и Spark использует библиотеки Hadoop для выполнения своих задач, поэтому это утверждение ложно.
Если вы имеете в виду, что не можете создавать лениво вычисляемые действия, то вам может потребоваться посмотреть на Pig, которая также создает план выполнения DAG, который вычисляется только при выполнении действия.Очень похоже на то, как RDD (или DataFrames) взаимодействуют друг с другом.
Sparks также будет считывать данные с жесткого диска (иначе, где это может быть в первый раз?)
Предполагая, что вы имеете в виду жесткие диски HDFS, альтернативами может быть локальная файловая система,S3, Kafka, как уже упоминалось, или база данных SQL, или Mongo, Elasticsearch и т. Д. Hadoop - это всего лишь одно из возможных мест, где существуют данные, и Spark может их читать.