Какую ценность добавляет адаптер Postgres для spark / hadoop? - PullRequest
0 голосов
/ 13 сентября 2018

Я не фанат HDFS, но, исходя из традиционного опыта работы с RDMS, я начинаю царапать новые технологии, такие как Hadoop и Spark.Теперь я посмотрел на свои варианты, когда дело доходит до SQL-запросов к данным Spark.

То, что я понял, что Spark по своей природе поддерживает запросы SQL.Потом я наткнулся на эту ссылку

https://www.enterprisedb.com/news/enterprisedb-announces-new-apache-spark-connecter-speed-postgres-big-data-processing

, которую я пытаюсь понять.Если я правильно понимаю.Данные по-прежнему хранятся в формате HDFS, но коннектор Postgres используется в качестве механизма запросов?Если да, то при наличии существующей структуры запросов какое новое значение добавляет этот соединитель postgress?

Или я неправильно понимаю, что он на самом деле делает?

1 Ответ

0 голосов
/ 14 сентября 2018

Я думаю, что вы неправильно понимаете.

Они ссылаются на концепцию стороннего упаковщика данных.

"... Они позволяют запросам PostgreSQL включать структурированные или неструктурированные данные из нескольких источников, таких как базы данных Postgres и NoSQL, а также из HDFS, как если бы они были в одной базе данных. ...
«

Это звучит для меня как подход Oracle Big Data Appliance. В Postgres вы можете рассматривать мир обработки данных логически, как если бы это был весь Postgres, но под водой к данным HDFS обращаются с помощью механизма запросов Spark, вызываемого механизмом запросов Postgres, но вам не нужно беспокоиться о том, что это вероятная предпосылка , Мы находимся в области виртуализации. Вы можете объединять большие данные и данные Postgres на лету.

Не существует такой вещи, как данные Spark, поскольку она не является базой данных, за исключением некоторых данных, отформатированных Spark и не совместимых с Hive.

Значение будет неизменно указываться, что вам не нужно изучать большие данные и т. Д. Будь это истина, еще неизвестно.

...