Я разместил свои текстовые данные в облаке слов.это фрейм данных, который у меня есть
vocab sumCI
aid 3
tinnitu 3
sudden 3
squamou 3
saphen 3
problem 3
prednison 3
pain 2
dysuria 3
cancer 2
, затем я преобразовал его в строку, подобную этой (на самом деле я скопировал число раз, когда каждое слово встречалось в моем фрейме данных, а затем передал функцию):
aid aid aid tinnitu tinnitu tinnitu sudden sudden sudden squamou squamou squamou
затем я использовал этот код для визуализации текстовых данных:
def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and change the arg below
wordcloud = WordCloud(
background_color="white",
width=1200, height=1000,
relative_scaling = 1.0,
collocations=False
).generate(text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
cidf=cidf.loc[cidf.index.repeat(cidf['sumCI'])].reset_index(drop=True)
strCI = ' '.join(cidf['vocab'])
print(strCI)
generate_wordcloud(strCI)
, а затем результат выглядит так:
, как вы видите, большинство словповторяется 2 или 3 раза, но их размер в облаке слов не показывает этого.даже для слов одинакового размера существует большая разница в размерах!
например:
Например, посмотрите на «тинниту» и «дизурия» в этом кадре данных, который имеет частотуиз 3, тинниту довольно большая, но дизурия вы найдете очень трудно, так как она очень маленькая.
Спасибо:)