Как найти наиболее часто используемые слова по какой-то формуле с другим столбцом - PullRequest
1 голос
/ 03 апреля 2019

Мой фрейм данных выглядит так:

id `  text                             c1
1     Hello world how are you people    1 
2     Hello people I am fine  people    1
3     Good Morning people               0
4     Good Evening                      0

Теперь я хочу найти наиболее часто употребляемое слово, используемое по-другому, позвольте мне объяснить.

Позвольте мне сначала показать вам ожидаемый результат, а затем я объясню:

Hello - 2
People - 1
world - 1
how - 1
are - 1
you - 1
I - 1
am - 1
fine - 1

То, что я пытаюсь сказать, это: Здесь people в 3 рядах 3 раза. Но счет отображается только 1 на выходе. Потому что:

строка 1 содержит people и c1 = 1 строка 2 содержит people и c1 = 1 строка 3 содержит people и c1 = 0

Таким образом, row1 + row2 - row3 = 1 (поскольку значения row1 и row2 равны 1, а row3 равны 0)

Точно так же значение Hello равно 2, потому что

строка 1 содержит hello и c1 = 1 строка 2 содержит hello и c1 = 1

Итак, row1 + row2 = 2

Я не хочу создавать новый столбец вывода, просто хочу его напечатать.

Я использую это для подсчета наиболее употребляемых слов

print(pd.Series(' '.join(df['text']).lower().split()).value_counts()[:10])

Но не знаю, как рассчитать вещи по-моему

1 Ответ

2 голосов
/ 03 апреля 2019

Вы можете использовать defaultdict для значений хранения - первый столбец zip с ci, зациклить их с Counter и добавить, если c1 == 0 добавить отрицательные значения.

Последний фильтр только положительный или 0 учитывается в словаре:

from collections import Counter, defaultdict

zipped = zip(df['text'], df['c1'])
d = defaultdict(int)

for a, b in zipped:
    c = Counter(set(a.lower().split()))
    for k, v in c.items():
        if b == 0:
            v = -v
        d[k] += v

d = {k: v for k, v in d.items() if v > 0}  
print (d)
{'are': 1, 'hello': 2, 'how': 1,'people': 1, 'world': 1, 'you': 1, 'i': 1, 'am': 1, 'fine': 1}

Аналогичное решение, если значение в c1 отсортировано - сначала все 1, а затем все 0:

from collections import Counter, defaultdict

df = df.sort_values('c1', ascending=False)

zipped = zip(df['text'], df['c1'])
d = defaultdict(int)

for a, b in zipped:
    c = Counter(set(a.lower().split()))
    for k, v in c.items():
        if (b == 0) and (k in d):
            d[k] -= v
        elif (b == 1):
            d[k] += v

print (d)

defaultdict(<class 'int'>, {'are': 1, 'hello': 2, 'how': 1, 'people': 1, 
                            'world': 1, 'you': 1, 'i': 1, 'am': 1, 'fine': 1})

df = pd.DataFrame({'val': list(d.keys()), 
                   'No': list(d.values())}).sort_values('No', ascending=False)
print (df)
      val  No
1   hello   2
0     are   1
2     how   1
3  people   1
4   world   1
5     you   1
6       i   1
7      am   1
8    fine   1

s = pd.Series(d).sort_values(ascending=False)
print (s)
hello     2
fine      1
am        1
i         1
you       1
world     1
people    1
how       1
are       1
dtype: int64
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...