В настоящее время я занимаюсь проектом машинного обучения с использованием python (здесь начинающий, изучая все с нуля).
Просто хочу узнать, в чем разница между OLS statsmodels и PooledOlS от scikit, используя тот же набор данных панели, что и у меня,Я попробовал оба, и они дали мне те же результаты.Значит ли это, что они по сути делают одно и то же, но из разных пакетов?Должен ли я получить те же результаты?Или я что-то не так делаю?
Мой набор данных выглядит примерно так, как показано ниже:
excessreturnlag1m ROA ... momentum6m momentum12m
bank date ...
bankA 2019-06-30 -14.564600 0.9795 ... 0.14 -0.24
2019-05-31 7.522300 0.9795 ... -0.69 -1.97
2019-04-30 -2.020400 0.9795 ... 1.36 -1.70
bankB 2019-06-30 -5.969600 0.9915 ... -0.39 -1.77
2019-05-31 0.220200 0.9915 ... -0.24 -2.00
2019-04-30 -1.900000 0.9915 ... -0.06 -1.42
bankC 2019-06-30 2.721700 0.9763 ... -0.38 -1.13
2019-05-31 -8.418900 0.9763 ... -1.28 -1.19
2019-04-30 -1.001100 0.9763 ... -3.06 -1.16
У меня в настоящее время есть мультииндекс (банк и дата) в моем Dataframe.Должен ли я использовать это для регрессии панели?
Редактировать: ОК, насколько я понимаю, PooledOLS - это "особый" случай множественной линейной регрессии, поэтому он даст те же результаты, что и OLS statsmodels?Поправь меня, если я ошибаюсь!