Мне дали задание с набором данных, который включает (соответственно, из столбцов 1–9) идентификатор автомобиля, цену автомобиля, год выпуска автомобиля, пробег, город, штат, VIN, марку и модель. У него есть данные для более чем 1,2 миллиона автомобилей.
В другом назначении мы использовали тот же набор данных, для которого для выбранной модели имеется не менее 2500 автомобилей. Я кодировал это из примеров в классе, но я не уверен, что понял это. Вот как это выглядело:
names(cars)[1] = "Model"
names(cars)[2] = "Count"
head(cars)
set.seed(1938575)
MyCars = sample_n(subset(UsedCars, Model == "CamrySE"), 200)
range(MyCars$Year)
Мы также определили новую переменную для возраста автомобиля здесь, что было просто сделать, потому что она была числовой.
MyCars$Age = 2017 - MyCars$Year
Но в этом назначении мы используем точно такой же набор данных, и инструкции следующие:
- потребуется выбрать шесть новых образцов 100 автомобилей для шести различных «Моделей» из набора данных подержанных автомобилей. .
- Каждая «Модель» должна иметь по крайней мере 1000 автомобилей в наборе данных.
- Необходимо выбрать шесть моделей автомобилей, чтобы две модели автомобилей были выбраны из Германии, Японии и США. автомобильные компании
- в каждой стране, нам нужно выбрать внедорожник и автомобиль (в частности, автомобиль, а не внедорожник или грузовик)
- должен добавить новые переменные в фреймы данных для страны компания и тип транспортного средства (это автомобиль или внедорожник?)
- объединяют эти шесть выборок в один кадр данных (используя функцию rbind, как было сделано в предыдущем назначении)
Я ж Я не уверен, как добавить новые категориальные переменные, такие как «страна» и «тип автомобиля», а затем изолировать их от Германии / Японии / США и автомобиля против внедорожника.
Может кто-нибудь помочь ?
РЕДАКТИРОВАТЬ: dput заголовка данных выглядит следующим образом:
16998, 15777, 16784, 17020), Year = c(2015, 2015, 2015, 2015,
2015, 2016), Mileage = c(18681, 27592, 13650, 25195, 22800, 16877
), City = c("Jefferson City", "Highland", "Boone", "New Orleans",
"Las Vegas", "Grand Island"), State = c("MO", "IN", "NC", "LA",
"NV", "NY"), Vin = c("KL4CJBSBXFB267643", "KL4CJASB5FB245057",
"KL4CJCSB0FB264921", "KL4CJASB4FB217542", "KL4CJBSB3FB166881",
"KL4CJASB7GB536760"), Make = c("Buick", "Buick", "Buick", "Buick",
"Buick", "Buick"), Model = c("EncoreConvenience", "EncoreFWD",
"EncoreLeather", "EncoreFWD", "EncoreConvenience", "EncoreFWD"
)), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA,
-6L))