Я понял ваш вопрос.По сути, вы пытаетесь понять, что и как представляют данные в Hadoop, и почему это не традиционная база данных, а данные из традиционной базы данных в Hadoop.
Несколько основных моментов, которые необходимо понять, когда речь идет о Hadoop,
1. Hadoop предназначен не только для структурированных данных, он также может использоваться для полуструктурированных и неструктурированных данных.Главным образом для целей анализа данных.
2. Hadoop - это фреймворк, в котором присутствуют различные компоненты.Наиболее часто используемые компоненты для запроса структурированных данных из HDFS - это Hive и Impala.
3. Что касается структурированных данных, Hadoop имеет HDFS и Hive Metastore для хранения данных в структурированном виде.HDFS хранит только файлы данных (например, текст, avro, parquet, json и т. Д.), А не метаданные (например, имя столбца, количество строк и т. Д.).С другой стороны, Hive Metastore - это, в основном, традиционные базы данных, такие как MySQL, Postgres и т. Д., Которые содержат только метаданные.Таким образом, metastore знает, где хранятся данные таблицы в HDFS, то есть путь к файлу HDFS.Подробнее об этом - вы можете прочитать один из моих постов ЗДЕСЬ
4. Почему Hadoop?Hadoop предназначен для хранения большого количества данных с высокой доступностью благодаря своей распределенной природе.Кроме того, Hadoop предназначен для WRITE один раз и READ много раз - это означает, что он больше предназначен для аналитики и отчетности, а не для транзакций, таких как использование традиционных баз данных.Что еще более важно, его с открытым исходным кодом!
Надеюсь, что это поможет вам в получении базового уровня!