Опция handleInvalid
вашего StringIndexer
, вероятно, установлена на skip
.
. Вы можете изменить эту опцию на error
, и преобразование не будет выполнено для никогда не видимых меток.Начиная с Spark 2.2, вы также можете использовать опцию keep
, чтобы хранить строки с неизвестными метками в отдельном сегменте для них:
string_indexer = StringIndexer(inputCol="label", outputCol="indexed", handleInvalid='keep')