Модель, которую вы описываете, является общей факторизацией совместной вероятностной модели. (Генеративная модель, поскольку она может использоваться для генерации случайных правдоподобных точек данных, а не только для прогнозирования целевой метки.)
Если у вас есть только отдельные функции, например, f1, f2, f3, максимум, что вы можете узнать о них, это их совместная вероятность P (f1, f2, f3). Это таблица со значением вероятности для всех возможных комбинаций признаков. Из этого вы можете сделать любой прогноз, который вы хотите. Эта таблица обычно слишком велика, у вас недостаточно данных, чтобы с уверенностью оценить все ячейки.
Конечно, вы можете начать с изучения только P (f1). Вы заполняете очень маленький стол. Но когда у вас есть это, вы можете выучить f2 для каждого заданного значения f1: P (f2 | f1). Это большой стол. И тогда вам нужен P (f3 | f1, f2), который еще больше. Это всегда возможно и эквивалентно изучению полной таблицы. Значит, вы ничего не получили.
То, что вы предлагаете, - это заменить эти «таблицы» предиктором, который (как мы надеемся) имеет меньше параметров для изучения, чем записи в полной таблице. Но с этим вы смещаете свою модель, поэтому теперь очень важно, какую функцию вы выберете первой и как ваш метод обучения справляется с зависимостями. Если f3 фактически не зависит от всех других функций, то это может работать очень хорошо, но если вы уже знаете это, вы можете просто заменить P (f3 | f1, f2) на P (f3) и вернуться к изучению этого как независимого фактор (он же очень маленький стол). Если вы следуете по этому маршруту, вы в конечном итоге моделируете байесовскую сеть .