Как вы знаете, основные проблемы с Hadoop для использования в потоковом майнинге заключаются в том, что сначала он использует HFDS, то есть диск, а операции с диском приводят к задержке, что приводит к потере данных в потоке. во-вторых, это то, что трубопровод не параллелен. Map-Reduce обычно работает с пакетами данных, а не с экземплярами, как с потоковыми данными.
Недавно я прочитал статью о M3, которая касается первой проблемы, по-видимому, в обход HDFS и выполнения вычислений в памяти в базе данных объектов. И для второй проблемы, они используют дополнительных учеников, которые больше не выполняются в пакетном режиме. Стоит проверить это M3
: Обработка потока на
Карта оперативной памятиReduce . Я нигде не мог найти исходный код или API этого M3, если кто-то нашел его, поделитесь ссылкой здесь.
Кроме того, Hadoop Online - это еще один прототип, который пытается решить те же проблемы, что и M3: Hadoop Online
Однако Apache Storm является ключевым решением проблемы, однако этого недостаточно. Вам нужен некоторый эквивалент карты-справа, вот почему вам нужна библиотека под названием SAMOA , которая на самом деле имеет отличные алгоритмы для онлайн-обучения, которых как бы не хватает.