Как вы создаете новые переменные для фреймов данных в R? - PullRequest
0 голосов
/ 19 апреля 2020

Мне дали задание с набором данных, который включает (соответственно, из столбцов 1–9) идентификатор автомобиля, цену автомобиля, год выпуска автомобиля, пробег, город, штат, VIN, марку и модель. У него есть данные для более чем 1,2 миллиона автомобилей.

В другом назначении мы использовали тот же набор данных, для которого для выбранной модели имеется не менее 2500 автомобилей. Я кодировал это из примеров в классе, но я не уверен, что понял это. Вот как это выглядело:

names(cars)[1] = "Model"
names(cars)[2] = "Count"
head(cars)
set.seed(1938575)
MyCars = sample_n(subset(UsedCars, Model == "CamrySE"), 200)
range(MyCars$Year)

Мы также определили новую переменную для возраста автомобиля здесь, что было просто сделать, потому что она была числовой.

MyCars$Age = 2017 - MyCars$Year

Но в этом назначении мы используем точно такой же набор данных, и инструкции следующие:

  • потребуется выбрать шесть новых образцов 100 автомобилей для шести различных «Моделей» из набора данных подержанных автомобилей. .
  • Каждая «Модель» должна иметь по крайней мере 1000 автомобилей в наборе данных.
  • Необходимо выбрать шесть моделей автомобилей, чтобы две модели автомобилей были выбраны из Германии, Японии и США. автомобильные компании
  • в каждой стране, нам нужно выбрать внедорожник и автомобиль (в частности, автомобиль, а не внедорожник или грузовик)
  • должен добавить новые переменные в фреймы данных для страны компания и тип транспортного средства (это автомобиль или внедорожник?)
  • объединяют эти шесть выборок в один кадр данных (используя функцию rbind, как было сделано в предыдущем назначении)

Я ж Я не уверен, как добавить новые категориальные переменные, такие как «страна» и «тип автомобиля», а затем изолировать их от Германии / Японии / США и автомобиля против внедорожника.

Может кто-нибудь помочь ?

РЕДАКТИРОВАТЬ: dput заголовка данных выглядит следующим образом:

16998, 15777, 16784, 17020), Year = c(2015, 2015, 2015, 2015, 
2015, 2016), Mileage = c(18681, 27592, 13650, 25195, 22800, 16877
), City = c("Jefferson City", "Highland", "Boone", "New Orleans", 
"Las Vegas", "Grand Island"), State = c("MO", "IN", "NC", "LA", 
"NV", "NY"), Vin = c("KL4CJBSBXFB267643", "KL4CJASB5FB245057", 
"KL4CJCSB0FB264921", "KL4CJASB4FB217542", "KL4CJBSB3FB166881", 
"KL4CJASB7GB536760"), Make = c("Buick", "Buick", "Buick", "Buick", 
"Buick", "Buick"), Model = c("EncoreConvenience", "EncoreFWD", 
"EncoreLeather", "EncoreFWD", "EncoreConvenience", "EncoreFWD"
)), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, 
-6L))


Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...