Я хотел бы подвести итог Label Encoder и One Hot Encoding:
Это правда, что Label Encoder просто дает интегральное представление для значения ячейки.Это подразумевает, что для вышеуказанного набора данных, если мы помечаем, кодируем наши категориальные значения - это будет imply that green is closer to orange than red since 0 is closer to 1 than 2
- что неверно.
С другой стороны, One Hot Encoding создает отдельный столбец для каждого категориального значения, и задается значение 0 или 1, представляющее отсутствие или присутствие этой функции соответственно.Кроме того, встроенная функция pd.get_dummies(dataframe)
производит тот же вывод.
Следовательно, если данный набор данных содержит категориальные значения, которые имеют порядковый характер, целесообразно использовать Label Encoding
;но если приведенные данные являются номинальными, следует идти вперед с One Hot Encoding
.
https://discuss.analyticsvidhya.com/t/dummy-variables-is-necessary-to-standardize-them/66867/2