У меня есть некоторые сомнения, как извлечь текст из списка строк, чтобы построить облако слов.
У меня есть следующие два столбца в моем фрейме данных:
Account Date
ttt-property-por 2020-05-12
ttt-retail-por 2020-05-12
ccc-credit-crd 2020-05-12
ttt-loan-por 2020-05-13
ccc-credit-crd 2020-05-21
ccc-credit-crd 2020-05-21
ttt-nonretail-por 2020-05-21
и многие другие.
Я хотел бы создать облако слов со словами, включенными между двумя -
, т.е.
property
retail
credit
loan
credit
credit
nonretail
, но мне нужно собрать эту информацию по дате.
Я попытался извлечь слова с помощью df['patterns'] = [x.split('-')[1].replace('(', '') for x in df['Account']]
Для облака слов:
from wordcloud import WordCloud
text = df.patterns[0]
wordcloud = WordCloud().generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
Однако я не знаю, как «группировать» учетные записи, чтобы отображать облака слов дата по дате.