У меня есть df, и мне нужно посчитать, сколько раз в каждой группе было слово «да». мне нужно найти слово (не как подстроку), и если рядом с ним стоит знак препинания, мне также нужно посчитать это, например:
id group text
1 a hey there
2 c no you can
3 a yes yes yes
4 b yes or no
5 b you need to say yes.
6 a yes you can
7 d yes!
8 c no&
9 b ok
результат:
group count
a 2
b 2
c 0
d 1
я пробовал это:
sql_q = spark.sql("select group, count(*) as count from my_table where text LIKE ' yes' or text LIKE 'yes ' or text LIKE ' yes ' group by group")