«Ноль частых предметов» при использовании eclat для майнинга частых предметов - PullRequest
0 голосов
/ 27 мая 2018

Итак, я хочу найти шаблоны и «кластеры», основываясь на том, какие предметы покупаются вместе, и в соответствии с вики для eclat:

Алгоритм Eclat используется для выполнения майнинга наборов предметов.Анализ наборов данных позволяет нам находить частые закономерности в данных, например, если потребитель покупает молоко, он также покупает хлеб.Этот тип шаблона называется правилами ассоциации и используется во многих доменах приложений.

Хотя, когда я использую eclat в R, я получаю "ноль частых элементов" и "NULL" при получениирезультаты через tidLists.Кто-нибудь может увидеть, что я делаю неправильно?

Полный набор данных: https://pastebin.com/8GbjnHK2

Каждая строка представляет собой транзакции, содержащие различные элементы в столбцах.Быстрая привязка данных:

3060615;;;;;;;;;;;;;;;
3060612;3060616;;;;;;;;;;;;;;
3020703;;;;;;;;;;;;;;;
3002469;;;;;;;;;;;;;;;
3062800;;;;;;;;;;;;;;;
3061943;3061965;;;;;;;;;;;;;;

Код

trans = read.transactions("Transactions.csv", format = "basket", sep = ";")

f <- eclat(trans, parameter = list(supp = 0.1, maxlen = 17, tidLists = TRUE))

dim(tidLists(f))

as(tidLists(f), "list")

Может ли это быть из-за структуры данных?В таком случае, как я должен изменить это?Кроме того, что мне делать, чтобы получить предлагаемые наборы предметов?Я не мог понять это из вики.

РЕДАКТИРОВАТЬ: я использовал 0,004 для поддержки, как предложено @ hpesoj626.Но похоже, что функция группирует заказы / пользователей, а не элементы.Я не знаю, как экспортировать данные, поэтому вот картинка из tidLists:

enter image description here

1 Ответ

0 голосов
/ 27 мая 2018

Проблема в том, что вы установили слишком высокую поддержку.Попробуйте настроить supp скажем, supp = .001, для которого мы получим

dim(tidLists(f))

# [1]   928 15840

Для вашего набора данных самая высокая поддержка - 0,08239, что ниже 0,1.Вот почему вы не получаете результатов с supp = 0.1.

inspect(head(sort(f, by = "support"), 10))

#      items             support count
# [1]  {3060620}         0.08239 1305 
# [2]  {3060619}         0.07260 1150 
# [3]  {3061124}         0.05688  901 
# [4]  {3060618}         0.05663  897 
# [5]  {4027039}         0.04975  788 
# [6]  {3060617}         0.04564  723 
# [7]  {3061697}         0.04306  682 
# [8]  {3060619,3060620} 0.03087  489 
# [9]  {3039715}         0.02727  432 
# [10] {3045117}         0.02708  429 
...