Я предполагаю, что ваши два набора данных выглядят так ...
Набор данных 1:
(x_11, x_12, ... , x_1N) = 1
(x_21, x_22, ... , x_2N) = 0
....
Набор данных 2:
(x_11, x_12, ... , x_1N) = (1, 1)
(x_21, x_22, ... , x_2N) = (0, 1)
....
Предполагая, что именно так выглядит ваша проблема, я бы разделил ее на две проблемы: предсказание двух разных меток. Я думаю, что это может быть оправдано формулой вероятности:
p(L1,L2|X) = p(L2|L1,X)p(L1|X)
где L1 и L2 - две метки класса, а X - данные.
Мое предложение состоит в том, чтобы обучить модель для p (L1 | X), используя наборы данных 1 и 2 и L1 в качестве целевой переменной, а затем обучить модель p (L2 | L1, X), используя наборы данных 2 и L1, с L2 как ваша целевая переменная. Чтобы предсказать новую пару меток, вы применяете первую модель, чтобы получить оценку L1, а затем вторую модель, используя оценку L1, чтобы получить оценку L2.
Я полагаю, что аргумент против этого подхода заключается в том, что, хотя формула верна, возможно, что p (L1, L2 | X) легче выучить, чем p (L2 | L1, X) и p (L1) | X). Однако из-за отсутствия подробностей я действительно не знаю.