Мне нужно сделать SVM в Weka для фильтрации документов с помощью Java - PullRequest
7 голосов
/ 23 февраля 2011

Я абсолютный новичок. Никогда не делал классификатор или что-либо в weka, используя Java, я использовал интерфейс прежде. По сути, я немного растерялся. Я посмотрел на класс фильтра для weka и немного поиграл с ним. Мои документы - это текстовые документы, и мне нужно разделить их на 2 категории.

Я не уверен, как определить категории или как загрузить документы в IDE для классификации

: - (

Любая помощь / учебники или указатели будут с благодарностью.

Ответы [ 2 ]

2 голосов
/ 28 апреля 2011

Я нашел этот учебник Java очень полезным, хотя в Интернете очень мало доступных ресурсов (которые я нашел)

http://www.cs.waikato.ac.nz/ml/weka/index_documentation.html

надеюсь, это поможет

2 голосов
/ 23 февраля 2011

Использование weka в первый раз - это боль, но вам придется пройти через это.

Кроме того, я попробовал weka, но мне пришлось сбросить его из-за JVM из-за исключений памяти. Я написал собственный небольшой алгоритм кластеризации с использованием Ruby, его производительность была намного лучше.

В любом случае, вот как использовать SVM в WEKA:

  1. Вы можете следовать этому руководству по использованию SVM на weka: www.stat.nctu.edu.tw/~misg/WekaInC.ppt

  2. Теперь вам понадобятся данные в формате ARFF (и я рекомендую вам использовать это, как показывает мой опыт, это помогает, данные выглядят более структурированными с точки зрения WEKA). Таким образом, вы можете сделать это, используя XML2ARFF-Converter , который я написал для себя. Вы можете изменить его для чтения текстовых файлов и конвертировать ваш текстовый файл в ARFF.

...