Есть ли способ подсчитать, сколько раз в день в определенном столбце присутствует конкретное слово? - PullRequest
0 голосов
/ 08 апреля 2019

Я анализирую использование некоторых конкретных хэштегов, представляющих интерес для набора данных Twitter.Конечная цель - визуализировать использование этих хэштегов с течением времени.Данные организованы в фрейм данных Pandas.Каждый ряд содержит информацию об одном твите.Один из столбцов называется «текст», и здесь находятся все твиты, один твит - одна строка.Набор данных индексируется по прошествии времени, поэтому я хочу посчитать, сколько раз в день используется определенный хэштег.

Итак, это информация о фрейме данных

 <class 'pandas.core.frame.DataFrame'>
 DatetimeIndex: 9991 entries, 2018-05-25 15:54:01 to 2018-05-25 14:14:37
 Data columns (total 13 columns):
 Unnamed: 0       9991 non-null int64
 ID               9991 non-null int64
 has_media        2015 non-null object
 is_reply         9991 non-null bool
 is_retweet       9991 non-null bool
 medias           2015 non-null object
 nbr_favorite     9991 non-null int64
 nbr_reply        9991 non-null int64
 nbr_retweet      9991 non-null int64
 text             9991 non-null object
 url              9991 non-null object
 user_id          9991 non-null int64
 usernameTweet    9991 non-null object
 dtypes: bool(2), int64(6), object(5)
 memory usage: 956.2+ KB

И, в частности, столбец text *

df['text']

дает следующий результат:

datetime
2018-05-25 15:54:01    Høj stemmeprocent ved #ok18  urafstemning. Dej...
2018-05-25 16:40:24    Man kan tvivle på at de gode medarbejdere fra ...
2018-05-25 18:19:25    Nej @gitteredder  teknikken drillede hos DLF. ...
2018-05-25 22:32:30    Rekordstor stemmeprocent hos @bibliotekarerne ...
2018-05-26 08:42:44    # ok18  stemte ja igår. Ja fordi folkeskolen i...
2018-05-26 10:21:20    Afstemningen er skudt i gang om #OK18  - 26 ti...
2018-05-26 12:12:28    Her godt et døgn efter afstemnings begyndelse ...
2018-05-26 14:14:35    Ikke vær bekymret for debatten - men vær bekym...
....

Так, как я могу подсчитать, сколько раз в день, например, использовался хэштег # ok18, и сделать из этого линейный график с каждым днем ​​на оси х и использованием хэштегов на оси у?

1 Ответ

1 голос
/ 09 апреля 2019

Это приведет вас к фрейму данных со всеми вхождениями # ok18 в нем:

df.loc[df['text'].str.lower().str.contains('#ok18') == True]

Отсюда подсчет очень прост, но если вы собираетесь его визуализировать, возможно, вы не захотите считать сразу; вы хотите построить график вхождения хэштега относительно временной оси.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...