заменить значения столбцов в искровом фрейме на основе словаря, подобного np.where - PullRequest
1 голос
/ 26 июня 2019

Мой фрейм данных выглядит как -

no          city         amount   
1           Kenora        56%
2           Sudbury       23%
3           Kenora        71%
4           Sudbury       41%
5           Kenora        33%
6           Niagara       22%
7           Hamilton      88%

Он состоит из 92 миллионов записей. Я хочу, чтобы мой фрейм данных выглядел как -

no          city         amount      new_city
1           Kenora        56%           X
2           Niagara       23%           X       
3           Kenora        71%           X
4           Sudbury       41%           Sudbury       
5           Ottawa        33%           Ottawa
6           Niagara       22%           X
7           Hamilton      88%           Hamilton

Используя python, я могу управлять им (используя np.where), но не получаю никаких результатов в pyspark. Любая помощь?

Я уже сделал -

#create dictionary
city_dict = {'Kenora':'X','Niagara':'X'}

mapping_expr  = create_map([lit(x) for x in chain(*city_dict .items())])

#lookup and replace 
df= df.withColumn('new_city', mapping_expr[df['city']])

#But it gives me wrong results.

df.groupBy('new_city').count().show()

new_city    count
   X          2
  null        3

Почему дает мне нулевые значения?

1 Ответ

1 голос
/ 26 июня 2019

Проблема в том, что mapping_expr вернет null для любого города, который не содержится в city_dict.Быстрое решение состоит в том, чтобы использовать coalesce для возврата city, если mapping_expr возвращает значение null:

from pyspark.sql.functions import coalesce

#lookup and replace 
df1= df.withColumn('new_city', coalesce(mapping_expr[df['city']], df['city']))
df1.show()
#+---+--------+------+--------+
#| no|    city|amount|new_city|
#+---+--------+------+--------+
#|  1|  Kenora|   56%|       X|
#|  2| Sudbury|   23%| Sudbury|
#|  3|  Kenora|   71%|       X|
#|  4| Sudbury|   41%| Sudbury|
#|  5|  Kenora|   33%|       X|
#|  6| Niagara|   22%|       X|
#|  7|Hamilton|   88%|Hamilton|
#+---+--------+------+--------+

df1.groupBy('new_city').count().show()
#+--------+-----+
#|new_city|count|
#+--------+-----+
#|       X|    4|
#|Hamilton|    1|
#| Sudbury|    2|
#+--------+-----+

Приведенный выше метод завершится неудачно, однакоесли одно из значений замены null.

В этом случае более простой альтернативой может быть использование pyspark.sql.DataFrame.replace():

Первое использование withColumn для создания new_city в качестве копии значений изстолбец city.

df.withColumn("new_city", df["city"])\
    .replace(to_replace=city_dict.keys(), value=city_dict.values(), subset="new_city")\
    .groupBy('new_city').count().show()
#+--------+-----+
#|new_city|count|
#+--------+-----+
#|       X|    4|
#|Hamilton|    1|
#| Sudbury|    2|
#+--------+-----+
...