У меня есть данные, которые представляют относительные значения (0,0-1,0), как показано в примере ниже. рассчитывается по формуле
cell value(E.g.23)/sum of the colum(E.g. 1200) = 0.01916
Пример данных
f1 f2 f3 f5 f6 f7 f8 class
0.266 0.133 0.200 0.133 0.066 0.133 0.066 1
0.250 0.130 0.080 0.160 0.002 0.300 0.111 0
0.000 0.830 0.180 0.016 0.002 0.059 0.080 1
0.300 0.430 0.078 0.100 0.082 0.150 0.170 0
перед применением алгоритма глубокого обучения Я удаляю функции, которые показывают высокую корреляцию.
Я запутался во время нормализации, какой метод является правильным до генерации модели.
- Используйте данные напрямую, потому что данные уже масштабированы (0,0-1,0).
- Выполните минимальное-максимальное масштабирование (https://scikit -learn.org / stable / modules /Генерируемый / sklearn.preprocessing.MinMaxScaler.html )
- Выполнить (https://scikit -learn.org / stable / modules / generate / sklearn.preprocessing.StandardScaler.html )
Потому что, когда я использую классические контролируемые алгоритмы, min-max и z-scaling улучшают производительность. Но в случае глубокого обучения с использованием «TensorFlow-GPU» я не вижу какой-либо существенной разницы между ними.
Спасибо.