Я пытаюсь создать модель множественной линейной регрессии, чтобы предсказать рейтинг, который гость дает отелю (Reviewer_Score) в Python, используя statsmodels.
Review_Total_Negative_Word_Counts как долго их отрицательные комментариио гостинице:
Total_Number_of_Reviews это сколько отзывов у отеля
Отзыв_Total_Positive_Word_Counts как долго их положительные отзывы об отеле
Total_Number_of_Reviews_Revewier_Has_Given это количество отзывов, которые гость дал на сайте
Отношение является категориальной переменной: ХОРОШО или ПЛОХО
Причина - причина посещения (Отдых или Бизнес)
Континент - континент, с которого прибыл гость (несколько уровней)
Соло означает, является ли путешественник индивидуальным («Да» или «Нет»)
Сезон - это период, в течение которого гость останавливался в отеле ('Fall ',' Winter ',' Summer ',' Spring ')
Как видите, у меня есть некоторые числовые и категориальные особенности.
Пока мой код:
import statsmodels.formula.api as smf
lm = smf.ols(formula = 'Reviewer_Score ~ Review_Total_Negative_Word_Counts + Total_Number_of_Reviews + Review_Total_Positive_Word_Counts + Total_Number_of_Reviews_Reviewer_Has_Given + Attitude + Reason + Continent + Solo + Season', data = Hotel).fit()
lm.params
lm.summary()
Моя проблема в том, что когда я смотрю на параметры (уклоны и оценки перехвата), такжеЗначения P выглядят следующим образом:
Уровни каждого изКатегориальные функции включены, и я просто хочу иметь вывод, который показывает нам наклоны и значения p для числовых и категориальных функций (НЕ наклоны и значения p для каждого уровня в категориальных функциях!)
По существуЯ хочу, чтобы выходные данные наклона выглядели так:
Перехват
Total_Number_of_Reviews
Review_Total_Positive_Word_Counts
Total_Number_of_Reviews_Revewier_Has_Given
1078 *1078* 1075 ** Причина
Континент
Соло
Сезон
Как бы я поступилчто-то вроде этого, чтобы свернуть уровни и просто показать значение и значение наклона для каждой из переменных?