Допустим, у нас есть следующий набор данных
Label | Features |
-----------------------------------
Age | Size | Weight | shoeSize |
20 | 180 | 80 | 42 |
40 | 173 | 56 | 38 |
, поскольку я знаю, что функции машинного обучения должны быть нормализованы, а упомянутые выше могут быть действительно хорошо нормализованы. но что, если я хочу расширить список функций, например, для следующих функций
| Gender | Ethnicity |
| 0 | 1 |
| 1 | 2 |
| 0 | 3 |
| 0 | 2 |
, где значения пола 0 и 1 предназначены для женщин и мужчин. а значения этнической принадлежности 1, 2 и 3 относятся к азиатской, испанской c и европейской. Поскольку эти значения ссылаются на типы, я уверен, что они могут быть нормализованы.
, если они не могут быть нормализованы, как я могу обрабатывать значения микширования, такие как размер, с типами, такими как enthnicity.