Путаница между оперативными и аналитическими большими данными и в какой категории работает Hadoop? - PullRequest
0 голосов
/ 31 декабря 2018

Я не могу обернуться вокруг теоретической концепции «Большие операционные и аналитические данные».

По моему мнению:

  1. Большие операционные данные:Филиал, где мы можем выполнять операции чтения / записи больших данных, используя специально разработанные базы данных (NoSQL).Несколько похоже на ETL в RDMS.

  2. Аналитические большие данные: ветвь, в которой мы анализируем данные в ретроспективе и делаем прогнозы, используя такие методы, как MPP и MapReduce.Несколько похоже на сообщение в RDMS.

(Пожалуйста, не стесняйтесь исправлять, где я не прав, это только мое понимание.)

Так что, по моему мнению, Hadoopиспользуется для аналитических больших данных, где мы просто обрабатываем данные для анализа, но не обрабатываем исходные данные и, следовательно, не являемся идеальным выбором для ETL.Но недавно я наткнулся на эту статью, которая пропагандирует использование Hadoop для ETL: https://www.datanami.com/2014/09/01/five-steps-to-running-etl-on-hadoop-for-web-companies/

1 Ответ

0 голосов
/ 12 января 2019

Hadoop (MapReduce) - не эффективный слой обработки, IMO, без адекватной настройки, так что из коробки ответ не один.Конечно, MapReduce может быть использован, и под капотом этого API зависит то, от чего зависят большинство инструментов более высокого уровня, но так как эти другие инструменты существуют, вам не захочется писать задания ETL в простом MapReduce.

Вы можете объединить Hadoop с Spark, Presto, HBase, Hive и т. Д., Чтобы разблокировать эти другие операционные или аналитические уровни, некоторые полезны для сообщения о случаях использования, а другие полезны для ETL.Опять же, множество ручек для получения полезных результатов в разумные сроки по сравнению с RDBMS (или другими инструментами NoSQL).Кроме того, для начала нужно несколько попыток узнать, как лучше всего хранить данные в Hadoop (подсказка: не в виде обычного текста, и не много маленьких файлов)

Этой ссылке уже более 5 лет, и она ссылается на Flume иSqoop.Другие технологии «веб-масштаба» показали свою ценность в то время, в то время как Flume и Sqoop показали, что их возраст может быть сложно настроить, по сравнению с такими инструментами, как Apache NiFi.

...