Сгруппируйте количество слов фрейма данных в соответствии с различными метками, хранящимися в столбце. - PullRequest
0 голосов
/ 10 февраля 2020

Я хотел бы знать, какие слова являются наиболее представительными для двух классов во всех ячейках кадра данных

Q1                                                             Q2                                                                           Q3                                                                                                                                                   Label
Cada vez que gobiernan los socialistas provocan paro y crisis. Zapatero hace su 39 visita a la dictadura venezolana ¿Qué motiva este viaje? Según Sánchez en Cataluña la ley no basta, y según Iceta hay que amnistiar a los que dieron un golpe al Estado. ¿Cuánta dignidad cuesta el poder?    PP
Los #10acuerdosdepais responden a los#ODS #Agenda2030          Hacia un nuevo contrato social global : capital,trabajo,planeta y Estado.   Premio muy merecido,@duarteoceans. Es uno de los biólogos marinos más prestigiosos,que nos ayudan a entender la interacción océano-cambio climático.  PSOE
...

И я хотел бы:

{
    'PP':{'Zapatero':2, 'truco': 3, ...},
    'PSOE':{'Gobierno':4,'truco':2}
}

Я подумал do:

wordfreq = []
for i, row in df.iloc[:,25:].iterrows():
    for column in df.iloc[:,25:].columns:
        wordlist = row[column].split() # I divided each cell in a column of words
        for w in wordlist:
            wordfreq.append(wordlist.count(w)) # I add up the words in one
            # But I don't know how to add them to the dictionary of specific words for each labe

Моя проблема в том, что я не знаю, как добавить их в словарь с указанием c 'labelwordfreq' слов для каждой метки.

Терминал отвечает мне :

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-54-cc03daf63866> in <module>
      2 for i, row in df.iloc[:,25:].iterrows():
      3     for column in df.iloc[:,25:].columns:
----> 4         wordlist = row[column].split() # Dividí cada celda de una columna de palabras
      5         for w in wordlist:
      6             wordfreq.append(wordlist.count(w)) # Sumo las palabras en uno

AttributeError: 'float' object has no attribute 'split'

У меня может быть nan здесь.

Я думаю, что у меня могут быть проблемы с размером, так как он будет учитываться для всех миров (я в порядке, только иметь верхние 10)

Обновление при попытке ответа Гжегожа Скибинского

Я попробовал следующий код:

cols=df.iloc[:,25:-1].columns.values
df["Q"]=x[0]
for i in cols[1:]:
    df["Q"]=df["Q"].str.cat(df[i], sep=" ")

    df["Q"]=df["Q"].str.lower()

Но получил:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-87-67083b1bcc84> in <module>
      6     df["Q"]=df["Q"].str.lower()
      7 
----> 8 df["Q"]=df["Q"].str.split("[^\w]").apply(Counter)

C:\ProgramData\Anaconda3\lib\site-packages\pandas\core\series.py in apply(self, func, convert_dtype, args, **kwds)
   3589             else:
   3590                 values = self.astype(object).values
-> 3591                 mapped = lib.map_infer(values, f, convert=convert_dtype)
   3592 
   3593         if len(mapped) and isinstance(mapped[0], Series):

pandas/_libs/lib.pyx in pandas._libs.lib.map_infer()

C:\ProgramData\Anaconda3\lib\collections\__init__.py in __init__(*args, **kwds)
    564             raise TypeError('expected at most 1 arguments, got %d' % len(args))
    565         super(Counter, self).__init__()
--> 566         self.update(*args, **kwds)
    567 
    568     def __missing__(self, key):

C:\ProgramData\Anaconda3\lib\collections\__init__.py in update(*args, **kwds)
    651                     super(Counter, self).update(iterable) # fast path when counter is empty
    652             else:
--> 653                 _count_elements(self, iterable)
    654         if kwds:
    655             self.update(kwds)

TypeError: 'float' object is not iterable

df["Q"]=df["Q"].str.split("[^\w]").apply(Counter)

Я заметил строка 72 была NaN, поэтому я удалил ее с помощью:

df = df.drop(72)

Так что теперь df['Q'] это:

0     {'s02q02': 1, 'self': 1, 'employed': 3, '': 11...
1     {'s02q02': 1, 'unemployed': 2, '': 270, 'perso...

Как я могу собрать их в соответствии с df['Label']?

1 Ответ

1 голос
/ 10 февраля 2020

Вы можете сделать:

from collections import Counter

df["Q"]=df["Q1"].str.cat(df["Q2"], sep=" ").str.cat(df["Q3"], sep=" ").str.lower()

df["Q"]=df["Q"].str.split("[^\w]").apply(Counter)

Это будет в основном делать следующее:

(1) конкатенировать все столбцы Q (что, если я вас правильно понимаю - это то, что вы хочу т.е. считать слова независимо от того, Q они появляются). Кроме того - я взял нижний регистр из последнего столбца (я предполагаю, что вы хотите получить регистр без учета регистра)

(2) разделить составное значение по каждому символу, что не является буквой

( 3) применить Counter для подсчета слов в списках, полученных в результате деления на (2)

...