Математически, цель R-Squared - дать вам оценку доли дисперсии вашей модели, которая объясняется ее независимыми функциями.
Формула выглядит так следует: [1 - (SSres / SStot)].
Где: SStot означает сумму вашей общей квадратичной ошибки, а SSres означает остаточную сумму квадратов.
Как SSres и SStot являются суммой чего-то, что агрегировано на одинаковом количестве записей 'n' в вашем наборе данных, количество записей, которые у вас есть в вашем наборе данных (обучающий набор данных в вашем случае), может изменить метрику R-Squared c, но не должно Не вносите никаких драматических c изменений в это как в метри c. Можно с уверенностью сказать, что R-Squared как метри c не отражает ничего, что связано с объемом данных, которые у вас есть, поскольку он сводится на нет отклонением между SSres и SStot.
Для результата 99% вы имеете дело в своей модели: это, вероятно, просто означает, что ваши независимые функции имеют довольно высокую прогностическую ценность по сравнению с зависимым значением. Я бы проверил, имеет ли какая-либо из моих переменных X прямое соединение с моей переменной y. (как если бы это арифметическая комбинация c, содержащая в себе значение y). Я также попытался бы получить представление о стандартной стоимости каждой функции, которую я включаю в свою модель. Небольшое стандартное значение может снизить SSres и, следовательно, привести к высокому показателю R-Squared c.
Самое главное: R-Squared = / = Точность !!!!! две метрики имеют очень мало общего друг с другом математически.