Мультимарочная классификация сделана правильно? - PullRequest
0 голосов
/ 15 февраля 2011

Допустим, у меня есть набор данных, который можно аккуратно классифицировать, используя weka's J48 или randomForest в R. Теперь предположим, что у меня есть другой обучающий файл, который содержит две классификации для каждой точки данных.

Как я мог объединить эти два, чтобы иметь возможность классифицировать новые точки данных в эти два класса?

(Так что мне понадобится тренировка в два прохода).

Должен ли я использовать MLP (например, ограниченную машину Больцмана)?

1 Ответ

1 голос
/ 22 февраля 2011

Я предполагаю, что ваши два набора данных выглядят так ...

Набор данных 1:

(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....

Набор данных 2:

(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....

Предполагая, что именно так выглядит ваша проблема, я бы разделил ее на две проблемы: предсказание двух разных меток. Я думаю, что это может быть оправдано формулой вероятности:

p(L1,L2|X) = p(L2|L1,X)p(L1|X)

где L1 и L2 - две метки класса, а X - данные.

Мое предложение состоит в том, чтобы обучить модель для p (L1 | X), используя наборы данных 1 и 2 и L1 в качестве целевой переменной, а затем обучить модель p (L2 | L1, X), используя наборы данных 2 и L1, с L2 как ваша целевая переменная. Чтобы предсказать новую пару меток, вы применяете первую модель, чтобы получить оценку L1, а затем вторую модель, используя оценку L1, чтобы получить оценку L2.

Я полагаю, что аргумент против этого подхода заключается в том, что, хотя формула верна, возможно, что p (L1, L2 | X) легче выучить, чем p (L2 | L1, X) и p (L1) | X). Однако из-за отсутствия подробностей я действительно не знаю.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...