Я делаю этот анализ ассоциации для важного университетского проекта, и я не уверен в результате.
Вместо связанных предметов я хочу найти связи между родственными брендами.
Я с нетерпением жду отзывов о моем коде, потому что я не уверен в этом.
Я использую следующий код:
TechStore <- read_excel("C:/Desktop/sample data/TechSalesData.xlsx")
#ddply(dataframe, variables OrderNumber and Date to get Transaction format)
techtransactions <- ddply(TechStore,c("OrderNumber","OrderDate"),
function(df1)paste(df1$Brand,
collapse = ","))
techtransactions$OrderNumber <- NULL
#set column Date of dataframe transactionData
techtransactions$OrderDate <- NULL
#Rename column to items
colnames(techtransactions) <- c("items")
write.csv(techtransactions,"C:/Desktop/sample data/TechTransactions.csv", quote = FALSE, row.names = FALSE)
TechTrans <- read.transactions("C:/Desktop/sample data/TechTransactions.csv", format = 'basket', sep=',')
rules <- apriori(TechTrans, parameter = list(support = 0.001, confidence = 0.2, minlen=2), control = list(verbose = FALSE))
summary(rules)
inspect(sort(rules, by = "lift")[1:5])
Это результат:
> inspect(sort(rules, by = "lift")[1:5])
lhs rhs support confidence lift count
[1] {Dell,Lenovo,Toshiba} => {Case Logic} 0.001699854 0.5833333 7.391282 7
[2] {Adventure Bags,Case Logic,HP} => {iPhone} 0.001214182 0.6250000 7.129501 5
[3] {Acer,Case Logic,Lenovo} => {Toshiba} 0.001214182 0.5555556 6.426342 5
[4] {Acer,Lenovo,Toshiba} => {Case Logic} 0.001214182 0.5000000 6.335385 5
[5] {Huawei,Lenovo,Targus} => {Apple} 0.001214182 0.5000000 6.183183 5
(это образец данных с брендами вместо продуктов)
Это правильный путь? У меня нет опыта общения с арулами. Разумно ли это?
Ссылка на набор данных
Большое спасибо!
Лучший лукар