Есть ли альтернатива для pyspark.ml.feature StringIndexer в python с использованием панд, numpy? - PullRequest
0 голосов
/ 03 мая 2018

StringIndexer кодирует строковый столбец меток в столбец индексов меток.

id | category | categoryIndex
----|----------|---------------
 0  | a        | 0.0
 1  | b        | 2.0
 2  | c        | 1.0
 3  | a        | 0.0
 4  | a        | 0.0
 5  | c        | 1.0

Как добиться этого в python без использования pyspark.ml.feature StringIndexer?

1 Ответ

0 голосов
/ 03 мая 2018

Поскольку вы упоминаете pandas, попробуйте использовать ngroup

df.groupby('category').ngroup()
Out[564]: 
0    0
1    1
2    2
3    0
4    0
5    2
dtype: int64
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...