Я работаю над большим проектом классификации текста, и наши текстовые данные (простые сообщения) хранятся в HBase.
У нас есть две проблемы, во-первых, мы хотели бы использовать HBase в качестве источника для классификаторов Mahout, а именно Bayers и Random Forests.
Во-вторых, мы хотели бы иметь возможность хранить модель, сгенерированную в HBase, вместо использования подхода в памяти (InMemoryBayesDatastore), однако по мере роста наших наборов у нас возникают проблемы с использованием памяти и мы хотим проверитьHBase как жизнеспособная альтернатива.
Кажется, что мало материала, плавающего вокруг, используя HBase с Mahout, и если возможно, использовать его в качестве потенциального источника данных.Я использую базовый API Mahout 0.6 в Java, который имеет хранилище данных InMemory.
Немного копая, я верю, что был (был) компонент хранилища данных HBase Bayers - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore
См. Более старый JavaDoc здесь: http://www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html
Однако, глядя на последниедокументация, похоже, эта функция исчезла?https://builds.apache.org/job/Mahout-Quality/javadoc/
Я хотел бы знать, можно ли по-прежнему использовать HBase в качестве источника данных для Bayers и RandomForests, и есть ли в этом какие-либо предыдущие случаи использования?
Спасибо!