Apriori или Fpgrowth алгоритм для качества данных - PullRequest
0 голосов
/ 03 июня 2019

У меня есть набор данных из 90 столбцов и 500 000 записей.Набор данных содержит смесь числовых и категориальных атрибутов (70 категориальных и 20 числовых).Как я могу запустить алгоритм извлечения частых данных, например, apriori / FPgrowth / Eclat, для этого набора данных с помощью python.Я пытаюсь найти образец среди разных столбцов и значений качества данных.Можем ли мы использовать набор данных как есть?

Как поместить те же данные, что и входные данные, в apriori?

Я попытался заменить ненулевые значения столбца именами столбцов, а затем преобразовал их в список списка, удалив нулевые значения.Правильный ли этот подход?Затем используются apriori и fpgrowth.

association_rules = apriori(transactions,min_support=0.6, min_confidence=0.8, min_lift=3, min_length=2)  
association_results = list(association_rules) 
print(association_results) 

Вторая строка списка кодов (association_rules) занимает бесконечное время.Есть ли лучший подход для решения этого алгоритма.

Я также пробовал пакет fpgrowth в python, используя pyfpgrowth.find_frequent_patternsbut, но странно, что это занимает больше времени, чем apriori.

Пожалуйста, предложите мне, если этот подходпреобразования данных, правильные для применения априори.Как передать необработанные данные в этот алгоритм?Как я могу уменьшить задержку, учитывая ее большие наборы данных.

...