Потоковые данные и Hadoop? (не Hadoop Streaming) - PullRequest
13 голосов
/ 02 августа 2009

Я бы хотел проанализировать непрерывный поток данных (доступ по HTTP), используя подход MapReduce, поэтому я изучал Apache Hadoop. К сожалению, похоже, что Hadoop ожидает начать работу с входного файла фиксированного размера, а не передавать новые данные потребителям по мере их поступления. Это на самом деле так, или я что-то упустил? Существует ли другой инструмент MapReduce, который работает с данными, считываемыми из открытого сокета? Масштабируемость является проблемой здесь, поэтому я бы предпочел, чтобы MapReducer обрабатывал беспорядочную параллелизацию.

Я играл с Cascading и смог запустить задание для статического файла, доступ к которому осуществляется через HTTP, но это на самом деле не решило мою проблему. Я мог бы использовать curl в качестве промежуточного шага для выгрузки данных где-нибудь в файловой системе Hadoop и написать сторожевой таймер для запуска нового задания каждый раз, когда новый кусок данных готов, но это грязный хак; должен быть более элегантный способ сделать это. Есть идеи?

Ответы [ 10 ]

10 голосов
/ 03 августа 2009

Взлом, который вы описываете, является более или менее стандартным способом выполнения действий - Hadoop по сути является системой, ориентированной на пакетную обработку (с одной стороны, если нет конца данным, редукторы не могут запуститься, поскольку они должен начаться после завершения фазы карты).

Вращайте свои журналы; по мере их поворота сбрасывайте их в HDFS. Имейте сторожевой процесс (возможно, распределенный, координируемый с помощью ZooKeeper), отслеживайте места сброса и запускайте новые задания обработки. Вы должны убедиться, что задания выполняются на входах, достаточно больших, чтобы оправдать накладные расходы.

Hbase - это клон BigTable в экосистеме hadoop, который может быть вам интересен, поскольку он обеспечивает непрерывный поток вставок; однако вам все равно придется выполнять аналитические запросы в пакетном режиме.

6 голосов
/ 06 января 2011

Как насчет http://s4.io/. Он предназначен для обработки потоковых данных.

Обновление

Новый продукт растет: Storm - Распределенные и отказоустойчивые вычисления в реальном времени: обработка потока, непрерывные вычисления, распределенный RPC и многое другое

2 голосов
/ 14 августа 2009

Думаю, вам стоит взглянуть на Esper CEP (http://esper.codehaus.org/).

1 голос
/ 15 января 2015

Несколько вариантов здесь. Я предлагаю комбинацию Kafka и Storm + (Hadoop или NoSql) в качестве решения. Мы уже строим нашу платформу больших данных, используя эти инструменты с открытым исходным кодом, и она работает очень хорошо.

1 голос
/ 30 марта 2013

Twitter's Storm - это то, что вам нужно, вы можете попробовать!

1 голос
/ 14 апреля 2011

Yahoo S4 http://s4.io/

Обеспечивает потоковые вычисления в реальном времени, например, уменьшение карты

0 голосов
/ 19 августа 2015

Вы должны попробовать Apache Spark Streaming. Это должно хорошо работать для ваших целей.

0 голосов
/ 27 марта 2015

На рынке доступно несколько зрелых платформ и продуктов для потоковой обработки. Фреймворки с открытым исходным кодом, например, Apache Storm или Apache Spark (которые могут работать поверх Hadoop). Вы также можете использовать такие продукты, как IBM InfoSphere Streams или TIBCO StreamBase.

Взгляните на эту статью InfoQ, в которой подробно объясняется обработка потоков и все эти платформы и продукты: Обработка потоковых данных в реальном времени / аналитика потоков в сочетании с Hadoop . Кроме того, в статье также объясняется, как это дополняет Hadoop.

Кстати: многие производители программного обеспечения, такие как Oracle или TIBCO, называют этот подход к потоковой обработке / потоковой аналитике «быстрыми данными», а не «большими данными», поскольку вы должны действовать в режиме реального времени вместо пакетной обработки.

0 голосов
/ 26 сентября 2014

Как вы знаете, основные проблемы с Hadoop для использования в потоковом майнинге заключаются в том, что сначала он использует HFDS, то есть диск, а операции с диском приводят к задержке, что приводит к потере данных в потоке. во-вторых, это то, что трубопровод не параллелен. Map-Reduce обычно работает с пакетами данных, а не с экземплярами, как с потоковыми данными.

Недавно я прочитал статью о M3, которая касается первой проблемы, по-видимому, в обход HDFS и выполнения вычислений в памяти в базе данных объектов. И для второй проблемы, они используют дополнительных учеников, которые больше не выполняются в пакетном режиме. Стоит проверить это M3 : Обработка потока на Карта оперативной памятиReduce . Я нигде не мог найти исходный код или API этого M3, если кто-то нашел его, поделитесь ссылкой здесь.

Кроме того, Hadoop Online - это еще один прототип, который пытается решить те же проблемы, что и M3: Hadoop Online

Однако Apache Storm является ключевым решением проблемы, однако этого недостаточно. Вам нужен некоторый эквивалент карты-справа, вот почему вам нужна библиотека под названием SAMOA , которая на самом деле имеет отличные алгоритмы для онлайн-обучения, которых как бы не хватает.

0 голосов
/ 17 декабря 2009

Ваш вариант использования звучит похоже на проблему написания веб-сканера с использованием Hadoop - потоки данных возвращаются (медленно) из открытых сокетов для извлечения удаленных страниц по HTTP.

Если это так, см. Почему выборка веб-страниц плохо сопоставляется с сокращением карты . И, возможно, вы захотите проверить класс FetcherBuffer в Bixo, который реализует многопоточный подход в редукторе (через каскадирование) для решения этого типа проблемы.

...