Я пытаюсь использовать R для создания таблицы частот продуктов (по категориям), которые часто покупаются вместе.
У меня есть данные, которые содержат следующую информацию:
OrderID CategoryCode4
On_line_Data2 <- read_excel("On-line Data2.xlsx", col_types =c("text","text"))
По сути, люди купили несколько продуктов, и мы хотим создать частотную диаграмму того, сколько раз «А» было куплено с «В»;«А» был куплен с «С»;«А» с «D»;«B» был куплен с «C»;«B» с «D»;«C» и «D» в большом списке товаров.
Код заказа уникален для каждого заказа, но может повторяться для каждой строки, поскольку он записан для каждого товара (который представлен только кодом категорииКаждый код категории может повторяться в каждом порядке, поэтому данные могут быть ниже:
OrderID CategoryCode4
---------------------------
Order1 catA
Order1 catA
Order1 catB
Order2 catA
Order2 catB
Order3 catA
Order3 catC
Order4 catA
Order4 catD
Order5 catA
Order5 catE
Выход будет выглядеть примерно так:
CatA & CatB 2
CatA & CatC 1
CatA & CatD 1
CatA & CatE 1
Я не знаюне волнует, если на выходе есть 'CatA & CatB = 2
', а также 'CatB & CatA = 2
' или это значение равно 3 из-за 2-х кратного значения A в порядке 1, хотя это не идея.
Я полностью застрялЯ даже не уверен, что Google может сделать это. Любая помощь будет с благодарностью.