Подсчет частоты с использованием кадра данных Pandas - PullRequest
0 голосов
/ 10 июня 2019

Я пытаюсь посчитать частоту слов в кадре данных Pandas.Тем не менее, я получаю другой результат, когда использую определенное слово (например, труд), чтобы найти частоту его использования, и другую сумму количества слов для того же слова, когда я пытаюсь найти наиболее часто встречающиеся слова во всем наборе данных.

Мои данные выглядят так:

    text
0   good luck kicked first game hope get

Я использую следующие коды, чтобы найти наиболее часто встречающиеся слова как по конкретным словам, так и по списку слов:

Для просмотрадля слова labout в наборе данных -

df.text.str.count("labour").sum()
741

Чтобы найти 2 наиболее распространенных слова в наборе данных

import collections
collections.Counter(" ".join(df["text"]).split()).most_common(2)
[('labour', 650),
 ('today', 473)]

Есть идеи, почему я могу получить разные результаты для одних и тех же слов?

...