Я пытаюсь приспособить модель линейной регрессии к данным, которые в основном являются категориальными. Значения rmse составляют около 7. Как определить диапазон значений rmse для категориальных переменных?
Каков наилучший способ измерения производительности модели, кроме значений ошибок? Это просто построение прогнозов на основе тестовых данных?
Это новый набор данных, в котором я пытаюсь получить представление с нуля. Любые ссылки на записные книжки или код для таких проблем (модель линейной регрессии на категориальных данных) приветствуются.
Я использовал хеширование функций sklearn и pd.get_dummies отдельно