Я могу дать вам обзор, но остальные вещи вы должны прочитать самостоятельно.
Давайте начнем с типов данных, которые вы хотите хранить в HDFS:
- Данные в движении (которые вы обозначили как данные в реальном времени).
Итак, как вы можете получить данные в реальном времени? Это вообще возможно? Ответ - нет. Там всегда будет задержка. Однако мы можем сократить время простоя и время обработки данных. Для которого у нас есть HDF (Hortonworks Data Flow). Работает с данными в движении. Существует множество сервисов, обеспечивающих потоковую передачу данных в реальном времени. Вы можете взять пример Кафки, Нифи, Шторма и многих других. Эти инструменты используются для обработки данных. Вам также необходимо хранить данные таким образом, чтобы их можно было извлечь не раз (~ 2 секунды), для этого мы используем HBase. HBase хранит данные в столбчатой структуре.
- Данные в состоянии покоя (Исторические данные / Данные, сохраненные для будущего использования)
Таким образом, для хранения данных в покое таких проблем нет. HDP (Hortonworks Data Platform) предоставляет нам услуги для приема, хранения и обработки данных. Даже мы можем интегрировать службы HDF в HDP (до версии 2.6), что также упрощает обработку данных в движении. Здесь нам нужны базы данных для хранения большого количества данных. Однако нам предоставляется HDFS (распределенная файловая система Hadoop), которая может помочь нам хранить любые данные. Но мы НЕ ТОЛЬКО хотим хранить наши данные, мы хотим получать их не тогда, когда это требуется. Итак, как мы планируем это сделать? Храня наши данные в структурированном виде. Для чего нам предоставляются Hive и HBase. Чтобы хранить такой объем данных, который находится в ТБ, нам нужно запустить тяжелые процессы, в которых MapReduce, YARN, Spark, Kubernetes, Spark входят в картину.
Это основная идея хранения и обработки данных в Hadoop.
Отдых всегда можно почитать из интернета.