Я использовал алгоритм prefixspan для извлечения данных о поведении пользователей APP, чтобы получать частые наборы элементов, которые я использовал для различения разных пользователей.
У меня есть некоторые проблемы:
Как очистить временную последовательность поведенческих данных того же пользователя? Необходимо ли разделять разные поведенческие пути одного и того же пользователя по временному интервалу.
Я пробовал интервалы в полчаса и интервалы в два часа.
Есть много частых наборов предметов. Как вы используете эти частые наборы предметов, выбираете важные или используете их все?
Вот пример получаемых частых наборов элементов:
<blink>
FreqSequence(sequence=[['click.jq_qjq_jkxq']], freq=2463)
FreqSequence(sequence=[['click.jq_qjq_jkxq', 'input.jq_qjq_zfmm']],
freq=2440)
FreqSequence(sequence=[['click.xfd_smrz']], freq=2455)
FreqSequence(sequence=[['click.xfd_smrz', 'click.xfd_yhkrz']],
freq=2434)
FreqSequence(sequence=[['click.xfd_smrz', 'click.xfd_yhkrz',
'click.xfd_yhkrz_yzm']], freq=2370)
FreqSequence(sequence=[['click.xfd_smrz', 'click.xfd_yhkrz',
'input.xfd_yhkrz_yzm']], freq=2381)
FreqSequence(sequence=[['click.xfd_smrz', 'click.xfd_yhkrz',
'input.xfd_yhkrz_yzm', 'click.xfd_yhkrz_yzm']], freq=2328)
FreqSequence(sequence=[['click.xfd_smrz', 'click.xfd_yhkrz_yzm']],
freq=2379)
FreqSequence(sequence=[['click.xfd_smrz', 'input.xfd_yhkrz_yzm']],
freq=2391)
FreqSequence(sequence=[['click.xfd_smrz', 'input.xfd_yhkrz_yzm',
'click.xfd_yhkrz_yzm']], freq=2337)
FreqSequence(sequence=[['click.xfd_smrz_fmz']], freq=2472)
FreqSequence(sequence=[['click.xfd_smrz_fmz', 'click.xfd_smrz']],
freq=2450)
FreqSequence(sequence=[['click.xfd_smrz_fmz', 'click.xfd_smrz',
'click.xfd_yhkrz']], freq=2432)
FreqSequence(sequence=[['click.xfd_smrz_fmz', 'click.xfd_smrz',
'click.xfd_yhkrz', 'click.xfd_yhkrz_yzm']], freq=2367)
FreqSequence(sequence=[['click.xfd_smrz_fmz', 'click.xfd_smrz',
'click.xfd_yhkrz', 'input.xfd_yhkrz_yzm']], freq=2378)
FreqSequence(sequence=[['click.xfd_smrz_fmz', 'click.xfd_smrz',
'click.xfd_yhkrz', 'input.xfd_yhkrz_yzm', 'click.xfd_yhkrz_yzm']],
freq=2325)
</blink>
У меня около 10000 таких наборов предметов.
Поскольку частые наборы предметов встречаются чаще, мне нужно выбирать важные или использовать их все.
Как применять частые наборы предметов в производственной среде?
Моя идея состоит в том, чтобы использовать частые наборы элементов как правило для разграничения между различными группами пользователей, что восходит к старой проблеме слишком большого количества часто используемых наборов, как вы выбираете важные наборы частых элементов.
Спасибо за любую помощь!