Классифицируйте данные, используя Apache Mahout - PullRequest
11 голосов
/ 09 ноября 2010

Я пытаюсь решить простую проблему классификации.

Проблема:
У меня есть набор текста, и я должен классифицировать его на основе содержимого.

Решение с использованиемMahout:
Я понял, что мне нужно преобразовать входные данные в файл последовательности, чтобы сгенерировать модель.Да, я смог сделать это.Теперь, как мне классифицировать мои тестовые данные?Пример 20News только проверяет правильность.Но я хочу провести фактическую классификацию.
Я не уверен, нужно ли мне писать код или использовать некоторые существующие классы, доступные для классификации тестового набора .?

Ответы [ 2 ]

3 голосов
/ 31 марта 2011

Я ненавижу подключать свою собственную работу, но мы добавили в раздел Mahout в действии информацию о классификации.Теория, примеры кода, практические примеры, даже реализация всей фермы серверов.

Предварительную версию можно получить по адресу http://www.manning.com/owen/

3 голосов
/ 25 февраля 2011

У меня похожая проблема.

Запуск

bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs

классифицирует текстовый файл в зависимости от модели.

Это может немного продвинуть вас вперед, но я предполагаю, что, как и я, вы хотите классифицировать целую загрузку документов и хотите, чтобы вывод был в полезном формате.

Возможно, для этого нужно запрограммировать немного Java.У кого-то есть пример, который выглядит так, как будто он будет делать то, что я хочу, на https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...