У меня этот образец набора данных выглядит следующим образом:
Я написал этот код в R для запуска алгоритма Apriori:
df_itemList<- read.csv('data.3.txt')
write.csv(df_itemList,"ItemList.csv", row.names = TRUE)
txn = read.transactions(file="ItemList.csv", rm.duplicates= TRUE, format="basket",sep=",",cols=1);
basket_rules <- apriori(txn,parameter = list(sup = 0.01, conf = 0.5,target="rules"));
df_basket <- as(basket_rules,"data.frame")
write.csv(df_basket,"ItemList2.csv", row.names = TRUE)
код работает очень хорошо и дает мне правила, как и ожидалось, но когда я запускаю его на реальном наборе данных «2000 строк», он выполняется за несколько секунд и дает всего 4 тривиальных правила