Если вы хотите подогнать кривую к данным с минимальными допущениями относительно функции, которая применяется к одному или нескольким предикторам, вы входите в область непараметрии c Регрессия.
Для линейной регрессии вы рассматриваете некоторое изменение: y = f(x) + u
, часто в форме, подобной y = B_0 + B_1*x_1 + u
, где предположения являются линейными как в параметрах, так и в данных.
Непараметрические c методы пытаются оценить форму функции, а не просто B
в модели.
Некоторые простые непараметрические c методы часто называют «сглаживателями»; они устанавливаются так, чтобы соответствовать гладкой линии данным (пример этого - вычисленная трасса на диаграмме рассеяния). Другие методы пытаются запускать регрессии, которые в той или иной форме взвешивают расстояния между точками данных, или другие штрафы, которые помогают соответствовать линии, не ограничиваясь такими допущениями, как линейность по всему набору данных; пара самых выдающихся из них - loess
& lowess
(две разные вещи, а не просто правописание). Как и в случае с любыми другими методами, есть причины выбирать один из двух, каждый имеет свои недостатки и преимущества и требует небольшого прочтения, прежде чем использовать их без разбора.
Для более подробного объяснения, это действительно хорошая презентация .
Чтобы поработать над этим в Python, , вот документация на statsmodels
'библиотека непараметрических c методов.