Я работаю над проектом по науке о данных на работе, и моя цель - предоставить сводку из огромного набора данных.
Например, я хочу знать, сколько клиентов заказали фирменный знак дома один раз, два раза, более двух раз.Сколько заказали дома бренд и не Хаус Бренд?Сколько было заказано только брендов, не принадлежащих компании?
Как этого добиться?
Пример набора данных
PRODUCT_SUB_LINE_DESCR MAJOR_CATEGORY_DESCR CUST_REGION_DESCR
SUNDRY SMALL EQUIP NORTH EAST REGION
SUNDRY SMALL EQUIP SOUTH EAST REGION
SUNDRY SMALL EQUIP SOUTH EAST REGION
SUNDRY SMALL EQUIP NORTH EAST REGION
SUNDRY PREVENTIVE SOUTH CENTRAL REGION
SUNDRY PREVENTIVE SOUTH EAST REGION
SUNDRY PREVENTIVE SOUTH EAST REGION
SUNDRY SMALL EQUIP NORTH CENTRAL REGION
SUNDRY SMALL EQUIP MOUNTAIN WEST REGION
SUNDRY SMALL EQUIP MOUNTAIN WEST REGION
SUNDRY COMPOSITE NORTH CENTRAL REGION
SUNDRY COMPOSITE NORTH CENTRAL REGION
SUNDRY COMPOSITE OHIO VALLEY REGION
SUNDRY COMPOSITE NORTH EAST REGION
Sales QtySold MFGCOST MarginDollars new_ProductName
209.97 3 134.55 72.72 no
-76.15 -1 -44.85 -30.4 no
275.6 2 162.5 109.84 no
138.7 1 81.25 55.82 no
226 2 136 87.28 no
115 1 68 45.64 no
210.7 2 136 71.98 no
29 1 18.85 9.77 no
29 1 18.85 9.77 no
46.32 2 37.7 7.86 no
159.86 1 132.4 24.81 no
441.3 2 264.8 171.2 no
209.62 1 132.4 74.57 no
209.62 1 132.4 74.57 no
Это не оригинальный набор данных.В основном я добавил новый столбец в исходный набор данных для анализа дерева решений позже.Но сейчас я хочу подготовить несколько сюжетов здесь.Private Label считается фирменным домом.
new_ProductName = ifelse( PRODUCT_SUB_LINE_DESCR == "PRIVATE
LABEL","yes","no")
data = data.frame(new_Dataset, new_ProductName)
Выпуск:
> group_by_region = data %>% group_by(PRODUCT_SUB_LINE_DESCR,
CUST_REGION_DESCR) %>% summarise(count=n(), sales=sum(Sales))
> mytable = table(group_by_region)
> barplot(mytable)
Error in barplot.default(mytable) : 'height' must be a vector or a matrix