Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору - PullRequest
0 голосов
/ 05 декабря 2018

Вот моя проблема: Например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1).Я хочу использовать эти функции, чтобы предсказать, принадлежит ли клиент к группе 0/1.

Однако проблема в том, что функции каждого идентификатора собираются и записываются несколько раз, что означает, что яиметь несколько строк, принадлежащих одному идентификатору.Итак, как я могу структурировать свои данные и построить матрицу объектов, где один идентификатор соответствует одной строке объектов и одной метке?

Элемент

ID feature1 feature2 feature3 ...
1  2        1.5      1        ...
2  1        3        0        ...
3  1        2        1        ...
1  2.5      1        1        ...
3  0.8      1        0        ...
...

Lable

ID lable
1  0
2  1
3  0
...

образец: два кадра данных

Существует ли способ, позволяющий максимально учитывать эти несколько строк функций исоздать матрицу объектов, соответствующую друг другу?

Моя личная идея на данный момент: во-первых, вычислите время, которое каждый идентификатор показывает как новую функцию.Во-вторых, кластеризуйте каждый идентификатор в два кластера и используйте центр кластера большинства из них в качестве массива признаков этого идентификатора.

Кто-нибудь может мне помочь?Большое спасибо!

1 Ответ

0 голосов
/ 05 декабря 2018

На проектирование элементов будут в значительной степени влиять любые ваши гипотезы о данных и конечном использовании инженерных функций.

Для начала можно объединить все функции на уровне идентификатора с помощью базовых статистических функций.например, MIN, MAX, NMISS, COUNT, SUM, MEAN, STDEV и т. д. Итак, если у вас есть f функции и вы используете k статистику, вы получите f*k независимых переменных.

Кроме того, в зависимости от данных - вы можетезаинтересован в просмотре специальных категорий - например, вас может заинтересовать число вхождений feature_1 >= 10 для каждого идентификатора, и это может быть дополнительной переменной.

...