Как уменьшить размер значений в определенных функциях в наборе данных - PullRequest
0 голосов
/ 09 мая 2018

У меня есть набор данных, взятый из UCI здесь , который выглядит следующим образом:

    Arrival_Time        Creation_Time         x         y         z  
0  1424696633909  1424696631918283972 -5.952240  0.670212  8.136536   
1  1424696633918  1424696631923288855 -5.995087  0.653549  8.204376   
2  1424696633919  1424696631928385290 -5.942718  0.676163  8.128204   
3  1424696633929  1424696631933420691 -5.991516  0.641647  8.135345   
4  1424696633929  1424696631938456091 -5.965332  0.629745  8.128204   
5  1424696633938  1424696631943522009 -5.991516  0.635696  8.162720   
6  1424696633939  1424696631948496374 -5.915344  0.630936  8.105591   
7  1424696633951  1424696631953592810 -5.984375  0.694016  8.067505   
8  1424696633952  1424696631960428747 -5.937958  0.715439  8.090118   
9  1424696633959  1424696631963663611 -5.902252  0.667831  8.069885 

Как вы заметили, значения столбцов Arrival_Time и Creation_Time очень велики (скорее всего потому, что они собраны с датчиков интеллектуальных часов). Я планирую использовать нейронную сеть для классификации, но я чувствую, что эти большие значения разрушат память! Как промежуточный элемент в предварительной обработке, что будет лучшим способом уменьшить размер значений в этих двух столбцах? Я думал о нормализации, но я не уверен, следует ли применять нормализацию для ВСЕХ функций в наборе данных, чтобы сохранить согласованность. Любые советы приветствуются.

1 Ответ

0 голосов
/ 10 мая 2018

Не игнорируйте значение атрибутов.

Это отметки времени . Вы должны рассматривать этот набор данных как временной ряд. Время - это не то же самое, что координаты x, y, z.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...