Как подсчитать вхождения строки в столбец данных PySpark? - PullRequest
0 голосов
/ 05 ноября 2019

Предположим, у меня есть следующий фрейм данных PySpark:

+---+------+-------+-----------------+
|age|height|   name|        friends  |
+---+------+-------+-----------------+
| 10|    80|  Alice|   'Grace, Sarah'|
| 15|  null|    Bob|          'Sarah'|
| 12|  null|    Tom|'Amy, Sarah, Bob'|
| 13|  null| Rachel|       'Tom, Bob'|
+---+------+-------+-----------------+

Как подсчитать количество людей, у которых "Сара" в друзьях, без создания другого столбца?

Я пыталсяdf.friends.apply(lambda x: x[x.str.contains('Sarah')].count()) но получил TypeError: 'Column' object is not callable

1 Ответ

0 голосов
/ 06 ноября 2019

вы можете попробовать следующий код: df = df.withColumn ('sarah', светится ('Sarah')) df.filter (df ['friends']. Содержит (df ['sarah'])). Count()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...