Модель линейной регрессии: почему мой результат теста выше, чем мой результат тренировки? - PullRequest
0 голосов
/ 16 октября 2018

Я использую модель LinearRegression (), используя sklearn.Набор данных содержит функции для транспортных средств, такие как размер двигателя, цилиндры, миль на галлон, тип топлива и выбросы CO2.Целевой переменной являются выбросы CO2.Я разделяю данные 70/30.Когда я вычисляю баллы для тренировочного и тестового наборов, баллы для тренировочного набора составляют 0,992, а для тестового набора - 0,993.(Высокая точность для обоих, по-видимому, обусловлена ​​использованием фиктивных переменных для типа топлива. Я перезапустил модель без фиктивных переменных, и точность сильно упала до 0,867 для поезда и 0,870 для теста. Опять тест - результатвыше).

Я смотрел в Интернете и еще не нашел полезных идей.Я видел, как другие говорят, что это может быть связано с тем, что набор данных мал, но в этом наборе данных содержится более 18 000 наблюдений (13 090 для поезда и 5611 для теста).Так как результаты обучения и тестирования практически идентичны, это проблема?Что может быть причиной того, что результат теста будет выше?

Данные для этого проекта ML можно найти здесь .Я использую расход топлива 2000-2018.

...