Я новичок в НЛП и просто играю с набором данных Amazon Echo Dot Reviews.
После подготовки данных я сделал FreqDist
и получил следующее:
![enter image description here](https://i.stack.imgur.com/W1McP.png)
![enter image description here](https://i.stack.imgur.com/0Np91.png)
Что здорово, а потом я сделал Облако слов
text = " ".join(recenzje for recenzje in newdata.Review_Text)
wordcloud = WordCloud(background_color="white", max_words=300, width=1000, height=500).generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()
С таким выводом:
![enter image description here](https://i.stack.imgur.com/9O7dM.png)
Итак, все сработало нормально, но я не уверен, почему наиболее употребительные слова в FreqDist
отличаются от наиболее употребительных слов в Облаке тегов?
Думаю, это как-то связано с вероятностью, но если бы кто-нибудь мог объяснить, я был бы признателен.
Заранее спасибо!