как создать Экземпляры в WEKA, если установлены значения Экземпляров? - PullRequest
1 голос
/ 27 августа 2011

если предположить, что мы имеем,

x=2, y=3,z=5, class="first"
x=3, y=5,z=10, class="second"

мы можем использовать csvloader или используя arrf, мы можем создать Экземпляры для любого классификатора с Weka.

но что, если предположим, что мы имеем,

x={2,3,4,5}, y={10,11,12,13}, z={6,3,9,5} class="biogancy"
x={7,6,2,3},y={3,2,8,4}, z={4,3,9,7} class="uiopnt"

как я могу создать объект Instance для каждой строки? Есть ли простой подход, как csvloader? Как я могу управлять выше строк в CSV-файле? Мне нужно использовать XML? Если да, то как я могу построить строки из Экземпляров сверху в WEKA?

Ответы [ 2 ]

0 голосов
/ 29 августа 2011

Могу ли я предложить другую альтернативу?

Если значения в каждом из них являются дискретными и ограниченными, вы можете создать двоичные атрибуты для моделирования каждого набора. Например, предположим, что x, y, z - это все подмножества {1,2,3}; в этом случае ваши экземпляры будут содержать 9 (+1) атрибутов:

x1, x2, x3, y1, y2, y3, z1, z2, z3, class

Это представление может быть слишком разреженным для ваших нужд, но оно все же является полным математическим описанием ваших примеров. Чтобы решить проблему редкости, я предлагаю использовать потрясающие инструменты выбора функций WEKA. Если этого недостаточно, вы всегда можете прибегнуть к более сложным методам уменьшения размеров.

0 голосов
/ 29 августа 2011

Реляционный атрибут - это то, что ближе всего подходит к вашему описанию. Это позволяет вам использовать несколько экземпляров, но вы можете использовать только одну сумку: http://weka.wikispaces.com/Multi-instance+classification

Вы можете использовать формат ARFF для указания данных. Если вам нужно использовать CSV-файл, вам, возможно, придется реализовать загрузчик самостоятельно.

Однако, если бы можно было разложить наборы на разумное количество атрибутов с логическими значениями, я бы так и сделал. Как описано в вики, существует только один пакет weka.classifiers.mi, который предлагает классификаторы с несколькими экземплярами.

Кажется, вам все равно придется использовать более одной сумки. В этом случае вы можете искать другую альтернативу.

...