Я хочу использовать машинное обучение для идентификации подписи пользователя, который конвертируется в подписчика веб-сайта, учитывая его поведение с течением времени.
Допустим, у моего веб-сайта есть 6 различных функций, которые можно использовать перед подпиской, и пользователи могут в любое время преобразоваться в подписчика.
Для данного пользователя у меня есть статистика, которая представляет интенсивность в непрерывном диапазоне взаимодействия этого пользователя с функциями 1-6 на ежедневной основе, так:
- D1: f1, f2, f3, f4, f5, f6
- D2: f1, f2, f3, f4, f5, f6
- D3: f1, f2, f3, f4, f5, f6
- D4: f1, f2, f3, f4, f5, f6
Скажем, в день 5 пользователь конвертирует.
Какая машина, использующая алгоритмы, помогла бы мне определить, какие наиболее распространенные шаблоны использования функций приводят к преобразованию?
(я знаю, что это супер базовый вопрос классификации, но я не смог найти хороший пример, используя продольные данные, где входные векторы упорядочены по времени, как у меня)
Для дальнейшего развития проблемы давайте предположим, что каждая функция имеет 3 интенсивности, с которыми пользователь может взаимодействовать (H, M, L).
Затем мы можем представить каждого пользователя в виде строки состояний интенсивности взаимодействия. Итак, для пользователя:
В первый день это означало бы, что они значительно взаимодействовали только с функциями 5 и 6, но к третьему дню они активно взаимодействовали с функциями 3-6.
N-граммовый стиль
Я мог бы сделать из этих состояний слова и время жизни пользователя предложением. (Возможно, потребуется добавить слово «преобразование» в словарь)
Если бы я пропустил эти «предложения» через n-граммную модель, я мог бы получить вероятное будущее состояние пользователя, учитывая его / ее последние несколько состояний, что несколько интересно. Но, что я действительно хочу знать, это наиболее распространенные наборы n-грамм, которые приводят к слову преобразования. Вместо того, чтобы вводить n-грамм и получать следующее предсказанное слово, я хочу дать предсказанное слово и вернуть 10 самых распространенных n-грамм (по моим данным), которые, вероятно, приведут к слову.
Амац Гердагделен предлагает определить n-граммы для практического n, а затем подсчитать, сколько n-граммовых состояний имеет каждый пользователь. Затем корреляция с данными конверсии (в этом примере, я думаю, нет слова конверсии). Я обеспокоен тем, что было бы слишком много n-грамм, чтобы сделать этот метод практичным. (если у каждого состояния есть 729 возможностей, и мы используем триграммы, это много возможных триграмм!)
В качестве альтернативы, могу ли я просто просмотреть данные, записывающие n-граммы, которые привели к слову преобразования, а затем выполнить кластеризацию по ним, чтобы узнать, каковы общие пути преобразования?
Стиль выживания
Предложенный Итератором, я понимаю аналогию с проблемой выживания, но литература здесь, кажется, сосредоточена на предсказании времени до смерти, а не на общей последовательности событий, которая приводит к смерти. Кроме того, при поиске модели пропорционального риска Кокса я обнаружил, что в ней не учитываются переменные, которые меняются с течением времени (это хорошо для различия между статическими атрибутами, такими как пол и этническая принадлежность), - так что она, похоже, очень ориентирована на другой вопрос, чем мой ,
Стиль дерева решений
Это кажется многообещающим, хотя я не могу полностью сосредоточиться на том, как структурировать данные. Поскольку данные не плоские, моделирует ли дерево вероятность перехода из одного состояния в другое по линии и когда это приводит к преобразованию или нет? Это сильно отличается от литературы по дереву решений, которую я смог найти.
Кроме того, нужна ясность в том, как определить шаблоны, которые приводят к конверсии, вместо этого модели предсказывают вероятный капот конверсии после данной последовательности.