Панды: частота слов по месяцам - PullRequest
0 голосов
/ 03 ноября 2018

Я изучаю базу данных, созданную следующим образом

excerpt from the database I'm working on

Итак, в основном это коллекция комментариев Youtube, которую я начал анализировать: мне удалось создать в столбце объявлений количество слов по комментарию, а также еще один столбец для ngram (который я собираюсь изучить позже). Мне удалось получить список из 10 самых частых слов за весь период, но я не смог получить частоту слов по месяцам: за каждый месяц я хотел бы получить список из 10 самых частых слов ,

Спасибо за вашу помощь!

1 Ответ

0 голосов
/ 03 ноября 2018

Я надеюсь, что вы можете попробовать это,

импорт панд как pd из коллекции импорт Счетчик

Вариант-1:

df=df.set_index(df['at'])
for u,v in df.groupby(pd.Grouper(freq="M")):
    words=sum(v['text'].str.split(' ').values.tolist(),[])
    c = Counter(words)
    print c.most_common(10)

Вариант-2:

df=df.set_index(df['at'])
for u,v in df.groupby(pd.Grouper(freq="M")):
    words=sum(v['text'].str.split(' ').values.tolist(),[])
    top_words=pd.Series(words).value_counts()[:10]
    print top_words.index.tolist()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...