У меня есть набор данных, который имеет 8 смешанных функций (6 числовых и 2 категориальных).Поскольку числовые значения имеют разные диапазоны, мне придется нормализовать набор данных в целом, чтобы иметь возможность выполнять более сложные действия, такие как алгоритмы машинного обучения, уменьшение размерности (извлечение признаков).
Мой исходный набор данных:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... High True
00:00:06 24356 3.6 23 ... High True
00:00:11 25567 8.3 82 ... LOW False
00:00:16 12345 5.4 110 ... LOW True
00:00:21 43246 1.7 93 ... High False
................................................
23:23:59 23456 3.8 45 ... LOW False
, где v1 - v6 - числовая переменная, в которой их значения находятся в разных диапазонах, как это видно выше.Более того, v7 и v8 являются категориальными переменными, которые имеют только два выхода (для v7 {High, Low} и для v8 {True, False}).
Я сделал кодирование меток для категориальных переменных (v7 и v8)где High и True были закодированы 1, а LOW и False были закодированы 0.
Ниже показано, как выглядит набор данных после кодирования метки:
time v1 v2 v3 ... v7 v8
00:00:01 15435 0.7 13 ... 1 1
00:00:06 24356 3.6 23 ... 1 1
00:00:11 25567 8.3 82 ... 0 0
00:00:16 12345 5.4 110 ... 0 1
00:00:21 43246 1.7 93 ... 1 0
................................................
23:23:59 23456 3.8 45 ... 0 0
Мой вопрос заключается в следующем:легко стандартизировать числовые функции от v1 до v6.Однако я не уверен, стоит ли стандартизировать категорические наблюдения, и если да, то каков будет наилучший способ сделать это?