как игнорировать список атрибутов с помощью командной строки при кластеризации в weka? - PullRequest
4 голосов
/ 31 января 2012

Я провожу серию кластерных анализов в Weka, и я понял, что автоматизация - это путь, если я хочу попасть куда-то. Я немного объясню, как я работаю.

  • Я делаю всю предварительную обработку вручную в R и сохраняю ее как файл csv , импортируя его в weka и сохраняя снова как файл arff .

  • Я использую графический интерфейс weka, и в целом я просто открываю свои данные в файле arff и сразу перехожу на вкладку кластеризация и играю. (Мой опыт использования CLI ограничен).

Я пытаюсь воспроизвести некоторые результаты, полученные с помощью графического интерфейса, но теперь с командами в CLI . Проблема в том, что я обычно игнорирую список атрибутов при кластеризации с использованием графического интерфейса. Я не могу найти способ выбора списка атрибутов, которые следует игнорировать в командной строке.

Например:

java weka.clusterers.XMeans \
-I 10 -M 1000 -J 1000 \
-L 2 -H 9 -B 1.0 -C 0.25 \
-D "weka.core.MinkowskiDistance -R first-last" -S 10 \
-t "/home/pedrosaurio/bigtable.arff"

Мой опыт работы с weka ограничен, поэтому я не знаю, упускаю ли я какое-то базовое понимание того, как это работает.

Ответы [ 2 ]

5 голосов
/ 01 февраля 2012

Функции предварительной обработки данных называются фильтрами.Вам нужно использовать фильтры вместе с кластерным алгоритмом.См. Пример ниже.

java weka.clusterers.FilteredClusterer \ 
-F weka.filters.unsupervised.attribute.Remove -V -R 1,5  \
-W weka.clusterers.XMeans  -I 10 -M 1000   -J 1000  -L 2 -H 9 -B 1.0 -C 0.25 \ 
-D "weka.core.MinkowskiDistance -R first-last" -S 10 \ 
-t "/home/pedrosaurio/bigtable.arff"

Здесь мы удаляем атрибуты 1-5, затем используем xmeans.

0 голосов
/ 30 ноября 2016

Чтобы игнорировать атрибут, вы должны сделать это с помощью функции расстояния

Игнорировать атрибуты из командной строки (Matlab):

COLUMNS = '3-last'; % The indices start from 1, 'first' and 'last' are valid as well. E.g .: first-3,5,6-last
Df = weka.core.EuclideanDistance (); % Setup distance function.
Df.setAttributeIndices (COLUMNS); % Setup distance function.

Игнорировать атрибуты из GUI Игнорировать атрибуты изGUI

Я не понимаю, почему, когда кто-то спрашивает, как игнорировать атрибуты, все ответы говорят о том, как изменить набор данных, используя фильтр в разделе предварительной обработки.

...