Обобщение модели машинного обучения - PullRequest
0 голосов
/ 27 мая 2019

Я новичок в машинном обучении, и я хотел бы задать вопрос об обобщении модели.В моем случае я собираюсь изготовить некоторые механические детали, и меня интересует контроль входных параметров для получения определенных свойств конечной детали.

В частности, меня интересуют 8параметры (скажем, P1, P2, ..., P8).В котором для оптимизации количества необходимых частей, производимых для максимизации исследуемых комбинаций параметров, я разделил задачу на 2 набора.Для первого набора частей я изменю первые 4 параметра (P1 ... P4), в то время как остальные будут постоянными.Во втором случае я сделаю обратное (переменные P5 ... P8 и константы P1 ... P4).

Поэтому я хотел бы знать, возможно ли создать одну модель, которая имеетвосемь параметров в качестве входных данных для прогнозирования свойств финальной части.Я спрашиваю, потому что, поскольку я не изменяю все 8 переменных одновременно, я подумал, что, возможно, мне придется сделать 1 модель для каждого набора параметров, и предсказания 2 разных моделей не могут быть связаны одна с другой.

Заранее спасибо.

1 Ответ

1 голос
/ 28 мая 2019

В большинстве случаев наличие двух разных моделей будет иметь лучшую точность, чем одна большая модель. Причина в том, что в локальных моделях модель будет рассматривать только 4 объекта и сможет определять шаблоны среди них для прогнозирования.

Но этот конкретный подход наверняка не сможет масштабироваться. Прямо сейчас у вас есть только два набора данных, но что если они увеличатся, и у вас будет 20 наборов данных. Вы не сможете создавать и поддерживать 20 моделей ML в производстве.

То, что лучше всего подходит для вашего случая, потребует некоторых экспериментов. Возьмите случайную выборку из данных и обучите модели ML. Возьмите одну большую модель и две локальные модели и оцените их производительность. Не только точность, но также их оценка F1, AUC-PR и кривая ROC, чтобы узнать, что работает лучше для вас. Если вы не видите значительного падения производительности, тогда лучше подойдет одна большая модель для всего набора данных. Если вы знаете, что ваши данные всегда будут разделены на эти два набора и вас не волнует масштабируемость, используйте две локальные модели.

...