Как «объединить» информацию о пользователе в разные периоды в наборе данных? - PullRequest
1 голос
/ 02 ноября 2019

Итак, я сейчас работаю с набором данных как личный проект. По сути, у меня есть около 15 тысяч записей на около 5 тысяч уникальных идентификаторов, и мне нужно сделать простой прогноз ДА / НЕТ для каждого идентификатора. Каждая строка представляет собой некоторую информацию об идентификаторе в течение определенного периода (1,2 или 3) и имеет 43 атрибута.

Мой вопрос: каков наилучший подход в этой ситуации? Должен ли я просто объединить 3 периода для каждого идентификатора в 1 и иметь 129 атрибутов подряд? Есть ли лучший подход? Заранее спасибо.

Вот пример моего набора данных

   PERIOD  ID   V_1  V_2  V_3  V_4  V_5  V_6  V_7  V_8  V_9  V_10  V_11   V_12    V_13    V_14   V_15  V_16  V_17  V_18  V_19  V_20  V_21  V_22    V_23    V_24   V_25  V_26  V_27   V_28   V_29  V_30  V_31   V_32   V_33  V_34  V_35  V_36    V_37    V_38  V_39  V_40    V_41  V_42  V_43
0       1   1  27.0  0.0  0.0  1.0  1.0  0.0  0.0  0.0  NaN  27.0   2.0  63.48  230.43  226.18   3.92   0.0   0.0  0.33   0.0   0.0   0.0   0.0   92.77   82.12  10.65   0.0   0.0  117.0  112.0   2.0   NaN   35.0   30.0   NaN   0.0   0.0   45.53  1.0550   0.0   0.0   45.53   0.0   0.0      
1       2   1  19.0  0.0  NaN  1.0  1.0  0.0  1.0  0.0  NaN  19.0   2.0    NaN  134.75  132.03   2.03   0.0   0.0  0.69   1.0   0.0   0.0   0.0  162.48  162.48   0.00   0.0   NaN   54.0   48.0   2.0   0.0   44.0   44.0   0.0   0.0   0.0   48.00     NaN   NaN   0.0   48.00   0.0   0.0      
2       3   1  22.0  0.0  0.0  NaN  1.0  0.0  0.0  0.0  0.0  22.0   1.0  21.98  159.08  158.08   1.00   0.0   0.0  0.00   0.0   NaN   0.0   0.0  180.90  180.90   0.00   0.0   0.0   39.0   38.0   1.0   0.0   33.0   33.0   0.0   0.0   NaN   46.59  0.0000   0.0   0.0   46.59   0.0   0.0      
3       1   2   NaN  NaN  0.0  1.0  1.0  NaN  0.0  NaN  0.0   NaN   4.0   2.20  175.97  164.92  11.00   0.0   0.0  0.05   NaN   0.0   0.0   0.0  281.68  259.63  22.05   NaN   0.0  109.0  103.0   4.0   0.0  152.0  143.0   9.0   0.0   0.0  157.50  3.3075   0.0   0.0  157.50   0.0   0.0      
4       2   2  28.0  0.0  0.0  1.0  1.0  0.0  0.0  0.0  0.0  28.0   8.0  73.93  367.20  339.73  27.47   0.0   0.0   NaN   0.0   0.0   0.0   0.0  504.13  479.53  24.60   0.0   0.0  233.0  222.0  11.0   0.0  288.0  279.0   NaN   0.0   0.0  157.50  3.6400   0.0   0.0  157.50   0.0   0.0      

Вот пример вывода

    ID  OUTPUT
    1   1.0
    2   0.0
    3   0.0
    4   0.0
    5   1.0
    6   1.0
    ...
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...