Вы не предоставили нам данные, но из вашего графика я могу получить несколько баллов
- У вас есть 2 функции, , одна из которых является двоичной (1,0), а другая - целое число от 0 до 600.
- Частота как 0, так и 1 больше, когда другая функция находится в диапазоне от 0 до 150.
Итак, учитывая приведенную выше информацию, я генерирую случайный набор данных для себя и отвечаю на ваш вопрос на основе моих данных.
dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
price=rnbinom(100, 100,0.5 ) )
В моем наборе данных binary
является строкой, которая может содержать только 1 или 0. и цена является числовым значением.
Первое, что я могу сделать, это изучить функцию price
, чтобы понять ее гистограмму, она помогает мне получить ее распространение.
library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
geom_histogram( position="identity", alpha=.5)+
geom_density()
и результат:
На следующем шаге я хочу сравнить частоту 1 с с 0 с
library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
geom_bar()
и это показывает мне их частоту:
Я сомневаюсь, что регрессия - хороший выбор для получения прогноза. Я бы сказал, что лучшим выбором здесь является классификация с использованием rpart
library(rpart)
model<-rpart(binary~price,dt, method="class" )
Но не забудьте разделить данные test
и train
.