Как я знаю, для модели линейной регрессии только с категориальным предиктором не может быть соответствия линии. Вы можете нарисовать каждую точку . Здесь я бы использовал iris
набор данных.
library(tidyverse)
as_tibble(iris)
#> # A tibble: 150 x 5
#> Sepal.Length Sepal.Width Petal.Length Petal.Width Species
#> <dbl> <dbl> <dbl> <dbl> <fct>
#> 1 5.1 3.5 1.4 0.2 setosa
#> 2 4.9 3 1.4 0.2 setosa
#> 3 4.7 3.2 1.3 0.2 setosa
#> 4 4.6 3.1 1.5 0.2 setosa
#> 5 5 3.6 1.4 0.2 setosa
#> 6 5.4 3.9 1.7 0.4 setosa
#> 7 4.6 3.4 1.4 0.3 setosa
#> 8 5 3.4 1.5 0.2 setosa
#> 9 4.4 2.9 1.4 0.2 setosa
#> 10 4.9 3.1 1.5 0.1 setosa
#> # ... with 140 more rows
Рассмотрим регрессионную проблему Petal.width ~ Species
.
iris %>%
ggplot() +
aes(x = Species, y = Petal.Width, colour = Species) +
geom_boxplot(show.legend = FALSE)
data:image/s3,"s3://crabby-images/948ba/948ba5f2033c14c8270495c46755460445f32939" alt="enter image description here"
Из этого прямоугольника вы можете увидеть распределение Petal.width
в каждом Species
и положительные отношения. Для качественного предиктора переменная будет закодирована как:
contrasts(iris$Species)
#> versicolor virginica
#> setosa 0 0
#> versicolor 1 0
#> virginica 0 1
так что модель становится
data:image/s3,"s3://crabby-images/2e890/2e890b0069d70c38d639bfae16962a4e8212f7e8" alt="enter image description here"
, где
data:image/s3,"s3://crabby-images/5f022/5f0225991b872603cf89ea72283413c89a352bc0" alt="enter image description here"
и
data:image/s3,"s3://crabby-images/29758/297584e4e00a027b856c7c37cc80759fecac58d4" alt="enter image description here"
Таким образом, каждое установленное значение станет
data:image/s3,"s3://crabby-images/a5ebe/a5ebefd8a12876f30a32aed7cd7f24b22fd5ad4f" alt="enter image description here"
из этих оценок
lm(Petal.Width ~ Species, data = iris)
#>
#> Call:
#> lm(formula = Petal.Width ~ Species, data = iris)
#>
#> Coefficients:
#> (Intercept) Speciesversicolor Speciesvirginica
#> 0.246 1.080 1.780
С этими фактами, как уже упоминалось, на графике можно нарисовать каждое подходящее значение.
С lm()
:
iris %>%
select(Species, Petal.Width) %>% # just for clarity
mutate(pred = lm(Petal.Width ~ Species)$fitted.values) %>% # linear regression
ggplot() +
aes(x = Species, y = Petal.Width) +
geom_point() +
geom_point(aes(x = Species, y = pred), col = "red", size = 3) # fitted values
data:image/s3,"s3://crabby-images/a2d0a/a2d0aaa6e5d594135ccef11b74a24306a2fca78f" alt="enter image description here"
В качестве альтернативы, отметив, что каждое установленное значение равно среднее значение выборки ,
iris %>%
select(Species, Petal.Width) %>%
group_by(Species) %>% # for each category
mutate(pred = mean(Petal.Width)) %>% # sample mean of response in each category
ggplot() +
aes(x = Species, y = Petal.Width) +
geom_point() +
geom_point(aes(x = Species, y = pred), col = "red", size = 3)
data:image/s3,"s3://crabby-images/b564c/b564caf0c653f9c4f223f90ba3507b8aa0e43180" alt="enter image description here"