Когда я посмотрел на реализацию PySpark ml, я увидел стандартизированный скейлер, примененный после того, как функции были собраны в вектор. Тем не менее, мой собранный вектор объектов состоит из некоторых объектов, которые проиндексированы (категориальный тип).
- Преобразует ли скейлер и категориальные функции? Или игнорировать это из-за метаданных?
- Если категориальные объекты масштабируются, следует ли применять стандартизацию к соответствующим столбцам и затем собирать столбцы в вектор объектов?