Как использовать PySpark Imputer для замены отсутствующих значений на -1 - PullRequest
0 голосов
/ 14 июля 2020

Название говорит само за себя. Я знаю, как заменить отсутствующие значения на среднее или медиану, используя setStrategy('mean'), но не мог понять, как заменить на константу (например, -1). Я заинтересован в использовании PySpark's Imputer, если это возможно. Ценю любую помощь

1 Ответ

1 голос
/ 14 июля 2020

Не могли бы вы попробовать это, предполагая, что для столбцов a и b вы пытаетесь заменить нулевые значения как -1

df.fillna(-1, subset=['a', 'b'])
...