HBase & Mahout - Использование HBase как хранилища данных / источника для Mahout - Классификация - PullRequest
15 голосов
/ 25 июля 2011

Я работаю над большим проектом классификации текста, и наши текстовые данные (простые сообщения) хранятся в HBase.

У нас есть две проблемы, во-первых, мы хотели бы использовать HBase в качестве источника для классификаторов Mahout, а именно Bayers и Random Forests.

Во-вторых, мы хотели бы иметь возможность хранить модель, сгенерированную в HBase, вместо использования подхода в памяти (InMemoryBayesDatastore), однако по мере роста наших наборов у нас возникают проблемы с использованием памяти и мы хотим проверитьHBase как жизнеспособная альтернатива.

Кажется, что мало материала, плавающего вокруг, используя HBase с Mahout, и если возможно, использовать его в качестве потенциального источника данных.Я использую базовый API Mahout 0.6 в Java, который имеет хранилище данных InMemory.

Немного копая, я верю, что был (был) компонент хранилища данных HBase Bayers - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore См. Более старый JavaDoc здесь: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

Однако, глядя на последниедокументация, похоже, эта функция исчезла?https://builds.apache.org/job/Mahout-Quality/javadoc/

Я хотел бы знать, можно ли по-прежнему использовать HBase в качестве источника данных для Bayers и RandomForests, и есть ли в этом какие-либо предыдущие случаи использования?

Спасибо!

1 Ответ

3 голосов
/ 26 сентября 2011

Это напрямую невозможно, нет. Вы можете восстановить эту старую реализацию, стряхнуть ее и, вероятно, заставить работать без особых проблем. Он действительно был удален, чтобы похудеть и сфокусировать проект.

Конечно, вы также можете посмотреть на экспорт ваших данных в той или иной форме и добавление их в представление или хранилище, которое поддерживается напрямую.

Вообще говоря, вы можете использовать HBase с Mahout благодаря тому, что Mahout использует Hadoop (в основном), а Hadoop может использовать HBase. Это не совсем ситуация здесь; здесь есть более прямая точка интеграции, которая устарела.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...