Question

Скажите, у меня есть следующий фрейм данных df:

      A             B               C
0     mom;dad;son;  sister;son;     yes;no;maybe;
1     dad;          daughter;niece; no;snow;
2     son;dad;      cat;son;dad;    tree;dad;son;
3     daughter;mom; niece;          referee;
4     dad;daughter; cat;            dad;

И вы хотите проверить, есть ли между столбцами A, B и C общее слово, и создать столбец D с 1, если есть, и 0, если нет ни одного Чтобы слово было общим, достаточно, чтобы оно появилось только в двух из трех столбцов.

Результат должен быть:

      A             B               C              D
0     mom;dad;son;  sister;son;     yes;no;maybe;  1
1     dad;          daughter;niece; no;snow;       0
2     son;dad;      cat;son;dad;    tree;dad;son;  1
3     daughter;mom; niece;          referee;       0
4     dad;daughter; cat;            dad;           1

Я пытаюсь реализовать это, выполнив:

for index, row in df.iterrows():

    w1=row['A'].split(';')
    w2=row['B'].split(';')
    w3=row['C'].split(';')

    if len(set(w1).intersection(w2))>0 or len(set(w1).intersection(w3))>0 or len(set(w2).intersection(w3))>0:
        df['D'][index]==1
    else:
        df['D'][index]==0

Тем не менее, результирующий столбец D имеет только 0, потому что (возможно) я не сравниваю каждое отдельное слово в w1 с другими в w2 и w3. Как мне этого добиться?

jazib jamil · Answer 1 · 09 мая 2018

Попробуйте это:

def find_common(row):
     A_list=set(row['A'].rsplit(';')[:-1])
     B_list=set(row['B'].rsplit(';')[:-1])
     C_list=set(row['C'].rsplit(';')[:-1])
     if ((len(A_list.intersection(B_list))) or (len(B_list.intersection(C_list))) or (len(A_list.intersection(C_list)))):
        return 1
     else: 
        return 0

df['D']=df.apply(find_common,axis=1)

zipa · Answer 2 · 09 мая 2018

Этот однострочник создает то, что вам нужно, используя collection.Counter :

from collections import Counter

df['D'] = df.applymap(lambda x: [i for i in x.split(';') if i]).apply(lambda x: int(Counter(x.A+x.B+x.C).most_common(1)[0][1]!=1), axis=1)

haklir · Answer 3 · 09 мая 2018

Вы можете использовать свой код, исправив опечатку: замените == на =.

piRSquared · Answer 4 · 09 мая 2018

Использование stack + pandas.Series.str.get_dummies

df.assign(
    D=df.stack().str.get_dummies(';').sum(level=0).gt(1).any(1).astype(int)
)

               A                B              C  D
0   mom;dad;son;      sister;son;  yes;no;maybe;  1
1           dad;  daughter;niece;       no;snow;  0
2       son;dad;     cat;son;dad;  tree;dad;son;  1
3  daughter;mom;           niece;       referee;  0
4  dad;daughter;             cat;           dad;  1

Детали

Обратите внимание, что когда мы складываем и получаем манекены, промежуточный результат выглядит следующим образом:

     cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0 A    0    1         0      0    1      0   0        0       0     0    1     0    0
  B    0    0         0      0    0      0   0        0       1     0    1     0    0
  C    0    0         0      1    0      0   1        0       0     0    0     0    1
1 A    0    1         0      0    0      0   0        0       0     0    0     0    0
  B    0    0         1      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   1        0       0     1    0     0    0
2 A    0    1         0      0    0      0   0        0       0     0    1     0    0
  B    1    1         0      0    0      0   0        0       0     0    1     0    0
  C    0    1         0      0    0      0   0        0       0     0    1     1    0
3 A    0    0         1      0    1      0   0        0       0     0    0     0    0
  B    0    0         0      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   0        1       0     0    0     0    0
4 A    0    1         1      0    0      0   0        0       0     0    0     0    0
  B    1    0         0      0    0      0   0        0       0     0    0     0    0
  C    0    1         0      0    0      0   0        0       0     0    0     0    0

Где предыдущие столбцы встроены во второй уровень индекса. Поэтому я хочу подвести итог по первому уровню, чтобы увидеть, сколько раз это слово появляется.

Этот промежуточный результат суммирования выглядит так:

   cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0    0    1         0      1    1      0   1        0       1     0    2     0    1
1    0    1         1      0    0      1   1        0       0     1    0     0    0
2    1    3         0      0    0      0   0        0       0     0    3     1    0
3    0    0         1      0    1      1   0        1       0     0    0     0    0
4    1    2         1      0    0      0   0        0       0     0    0     0    0

Обратите внимание, что мы ловим 'son' в строке 1, 'dad' и 'son' в строке 3 и т. Д.

Если он появляется в более чем 1 столбце (отсюда gt(1)), тогда я хочу считать его как 1 (отсюда any(1).astype(int)).

Python: определите, есть ли у трех текстовых строк, хранящихся в кадре данных, какие-либо общие слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Детали

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python: определите, есть ли у трех текстовых строк, хранящихся в кадре данных, какие-либо общие слова

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Детали

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы