Различия между реализациями OLS в Sk-learn и Statsmodels - PullRequest
0 голосов
/ 15 апреля 2019

В настоящее время я выполняю линейную регрессию для моего набора данных временных рядов. Однако, в зависимости от того, какой модуль Python я использую, я получаю совершенно разные результаты. Сначала я использовал Sklearn, и моя модель получила оценку R ^ 2 около 0,65. После этого я попытался использовать statsmodels.api, чтобы получить сводную информацию о регрессии, поскольку Sklearn не предоставляет ее, и я получил совершенно другой показатель R-2, равный 0,96.

После этого я использовал линейную модель statsmodels.formula.api и получил еще один другой результат, на этот раз ближе к моему первому результату. (R ^ 2 0,65)

Я хочу знать, почему это происходит. С моей стороны это кажется ошибкой, но я почти уверен, что использую одни и те же данные для всех регрессий (при необходимости конвертируя фрейм данных в np.arrays). Могут ли такие большие различия происходить из-за различий в реализации модуля?

Спасибо, что нашли время прочитать это.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...