У меня есть набор данных, взятый из UCI здесь , который выглядит следующим образом:
Arrival_Time Creation_Time x y z
0 1424696633909 1424696631918283972 -5.952240 0.670212 8.136536
1 1424696633918 1424696631923288855 -5.995087 0.653549 8.204376
2 1424696633919 1424696631928385290 -5.942718 0.676163 8.128204
3 1424696633929 1424696631933420691 -5.991516 0.641647 8.135345
4 1424696633929 1424696631938456091 -5.965332 0.629745 8.128204
5 1424696633938 1424696631943522009 -5.991516 0.635696 8.162720
6 1424696633939 1424696631948496374 -5.915344 0.630936 8.105591
7 1424696633951 1424696631953592810 -5.984375 0.694016 8.067505
8 1424696633952 1424696631960428747 -5.937958 0.715439 8.090118
9 1424696633959 1424696631963663611 -5.902252 0.667831 8.069885
Как вы заметили, значения столбцов Arrival_Time
и Creation_Time
очень велики (скорее всего потому, что они собраны с датчиков интеллектуальных часов). Я планирую использовать нейронную сеть для классификации, но я чувствую, что эти большие значения разрушат память! Как промежуточный элемент в предварительной обработке, что будет лучшим способом уменьшить размер значений в этих двух столбцах? Я думал о нормализации, но я не уверен, следует ли применять нормализацию для ВСЕХ функций в наборе данных, чтобы сохранить согласованность. Любые советы приветствуются.