В настоящее время я выполняю линейную регрессию для моего набора данных временных рядов. Однако, в зависимости от того, какой модуль Python я использую, я получаю совершенно разные результаты.
Сначала я использовал Sklearn, и моя модель получила оценку R ^ 2 около 0,65. После этого я попытался использовать statsmodels.api, чтобы получить сводную информацию о регрессии, поскольку Sklearn не предоставляет ее, и я получил совершенно другой показатель R-2, равный 0,96.
После этого я использовал линейную модель statsmodels.formula.api и получил еще один другой результат, на этот раз ближе к моему первому результату. (R ^ 2 0,65)
Я хочу знать, почему это происходит. С моей стороны это кажется ошибкой, но я почти уверен, что использую одни и те же данные для всех регрессий (при необходимости конвертируя фрейм данных в np.arrays). Могут ли такие большие различия происходить из-за различий в реализации модуля?
Спасибо, что нашли время прочитать это.