Spark ML: Размеры категорий OneHotEncoder теряются при сохранении в качестве модели - PullRequest
0 голосов
/ 22 января 2019

У меня есть Pipeline, который имеет несколько этапов, включая некоторые OneHotEncoder's.Когда я проверяю метаданные для сохраненной стадии OneHotEncoder's, я не вижу, чтобы categorySizes сохранялся где-либо еще.На самом деле папка data на соответствующем этапе полностью отсутствует.

В общем, как OneHotEncoder узнает количество символов для правильного Transform () во входящих данных?

В целом настойчивость на стадии кажется очень непоследовательной.Некоторые сохраняются как классы моделей (например, StringIndexerModel), а некоторые являются только базовым преобразователем (например, OneHotEncoder).

...