Python: определите, есть ли у трех текстовых строк, хранящихся в кадре данных, какие-либо общие слова - PullRequest
0 голосов
/ 09 мая 2018

Скажите, у меня есть следующий фрейм данных df:

      A             B               C
0     mom;dad;son;  sister;son;     yes;no;maybe;
1     dad;          daughter;niece; no;snow;
2     son;dad;      cat;son;dad;    tree;dad;son;
3     daughter;mom; niece;          referee;
4     dad;daughter; cat;            dad;

И вы хотите проверить, есть ли между столбцами A, B и C общее слово, и создать столбец D с 1, если есть, и 0, если нет ни одного Чтобы слово было общим, достаточно, чтобы оно появилось только в двух из трех столбцов.

Результат должен быть:

      A             B               C              D
0     mom;dad;son;  sister;son;     yes;no;maybe;  1
1     dad;          daughter;niece; no;snow;       0
2     son;dad;      cat;son;dad;    tree;dad;son;  1
3     daughter;mom; niece;          referee;       0
4     dad;daughter; cat;            dad;           1

Я пытаюсь реализовать это, выполнив:

for index, row in df.iterrows():

    w1=row['A'].split(';')
    w2=row['B'].split(';')
    w3=row['C'].split(';')

    if len(set(w1).intersection(w2))>0 or len(set(w1).intersection(w3))>0 or len(set(w2).intersection(w3))>0:
        df['D'][index]==1
    else:
        df['D'][index]==0

Тем не менее, результирующий столбец D имеет только 0, потому что (возможно) я не сравниваю каждое отдельное слово в w1 с другими в w2 и w3. Как мне этого добиться?

Ответы [ 4 ]

0 голосов
/ 09 мая 2018

Попробуйте это:

def find_common(row):
     A_list=set(row['A'].rsplit(';')[:-1])
     B_list=set(row['B'].rsplit(';')[:-1])
     C_list=set(row['C'].rsplit(';')[:-1])
     if ((len(A_list.intersection(B_list))) or (len(B_list.intersection(C_list))) or (len(A_list.intersection(C_list)))):
        return 1
     else: 
        return 0  

df['D']=df.apply(find_common,axis=1)

0 голосов
/ 09 мая 2018

Этот однострочник создает то, что вам нужно, используя collection.Counter :

from collections import Counter

df['D'] = df.applymap(lambda x: [i for i in x.split(';') if i]).apply(lambda x: int(Counter(x.A+x.B+x.C).most_common(1)[0][1]!=1), axis=1)
0 голосов
/ 09 мая 2018

Вы можете использовать свой код, исправив опечатку: замените == на =.

0 голосов
/ 09 мая 2018

Использование stack + pandas.Series.str.get_dummies

df.assign(
    D=df.stack().str.get_dummies(';').sum(level=0).gt(1).any(1).astype(int)
)

               A                B              C  D
0   mom;dad;son;      sister;son;  yes;no;maybe;  1
1           dad;  daughter;niece;       no;snow;  0
2       son;dad;     cat;son;dad;  tree;dad;son;  1
3  daughter;mom;           niece;       referee;  0
4  dad;daughter;             cat;           dad;  1

Детали

Обратите внимание, что когда мы складываем и получаем манекены, промежуточный результат выглядит следующим образом:

     cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0 A    0    1         0      0    1      0   0        0       0     0    1     0    0
  B    0    0         0      0    0      0   0        0       1     0    1     0    0
  C    0    0         0      1    0      0   1        0       0     0    0     0    1
1 A    0    1         0      0    0      0   0        0       0     0    0     0    0
  B    0    0         1      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   1        0       0     1    0     0    0
2 A    0    1         0      0    0      0   0        0       0     0    1     0    0
  B    1    1         0      0    0      0   0        0       0     0    1     0    0
  C    0    1         0      0    0      0   0        0       0     0    1     1    0
3 A    0    0         1      0    1      0   0        0       0     0    0     0    0
  B    0    0         0      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   0        1       0     0    0     0    0
4 A    0    1         1      0    0      0   0        0       0     0    0     0    0
  B    1    0         0      0    0      0   0        0       0     0    0     0    0
  C    0    1         0      0    0      0   0        0       0     0    0     0    0

Где предыдущие столбцы встроены во второй уровень индекса. Поэтому я хочу подвести итог по первому уровню, чтобы увидеть, сколько раз это слово появляется.

Этот промежуточный результат суммирования выглядит так:

   cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0    0    1         0      1    1      0   1        0       1     0    2     0    1
1    0    1         1      0    0      1   1        0       0     1    0     0    0
2    1    3         0      0    0      0   0        0       0     0    3     1    0
3    0    0         1      0    1      1   0        1       0     0    0     0    0
4    1    2         1      0    0      0   0        0       0     0    0     0    0

Обратите внимание, что мы ловим 'son' в строке 1, 'dad' и 'son' в строке 3 и т. Д.

Если он появляется в более чем 1 столбце (отсюда gt(1)), тогда я хочу считать его как 1 (отсюда any(1).astype(int)).

...