Решение о том, какой полином выбрать для нелинейных данных в регрессии машинного обучения - PullRequest
1 голос
/ 29 марта 2020

Я не эксперт по ML, и недавно я начал применять алгоритмы ML по одному. После успешной реализации регрессии logisti c я застрял с вопросом о том, как выбрать полиномиальную модель с учетом набора данных? У нас есть различные полиномиальные комбинации, основанные на входных объектах (скажем, n функции для m выборочного набора данных), но есть ли способ выбрать наиболее подходящий полином? У меня в голове две идеи, и я не уверен, верны ли они. Если есть какой-либо конкретный c алгоритм или процесс, который используют ученые, пожалуйста, сообщите мне. Спасибо.

  1. Как будто мы запускаем разные полиномы и видим, какой полином приведет к наименьшей стоимости? (Я чувствую, что это будет долгий и болезненный процесс)
  2. Составьте график данных и визуализируйте, чтобы увидеть, какая полиномиальная гипотеза лучше всего подходит для этого (опять же, для многомерных данных визуальный график будет слишком сложно)

1 Ответ

1 голос
/ 29 марта 2020

Как вы сказали, построение графиков не будет работать в многомерных пространствах.

Вам нужно настроить разделение теста поезда (или, возможно, перекрестную проверку) и посмотреть, какие функции будут дать вам лучший прогноз на тестовых данных. Важно, чтобы тестовые данные были разделены, чтобы избежать переобучения, т. Е. Более сложные функции всегда могут лучше аппроксимировать ваши тренировочные данные, но это не значит, что они действительно могут обобщать.

Но обычно вы не не утруждайте себя явным использованием полиномиальных функций и вместо этого будете использовать разные типы ядер в регрессии ядра. В вашем случае это будет ядро ​​полинома

Альтернативой может быть использование методов, которые поощряют разреженность с точки зрения используемых переменных. Регрессия LASSO налагает штраф на потери наименьших квадратов, который поощряет параметры функций, которые не должны быть равны нулю. Таким образом, вы можете просто включить все комбинации, которые, кажется, имеют смысл, и, наконец, взглянуть на лассо, чтобы увидеть, какие параметры отличны от нуля.

...