Облако слов не показывает частоту слов правильно - PullRequest
0 голосов
/ 07 февраля 2019

Я разместил свои текстовые данные в облаке слов.это фрейм данных, который у меня есть

vocab   sumCI
aid      3
tinnitu  3
sudden   3
squamou  3
saphen   3
problem  3
prednison 3
pain    2
dysuria 3
cancer  2

, затем я преобразовал его в строку, подобную этой (на самом деле я скопировал число раз, когда каждое слово встречалось в моем фрейме данных, а затем передал функцию):

aid aid aid tinnitu tinnitu tinnitu sudden sudden sudden squamou squamou squamou

затем я использовал этот код для визуализации текстовых данных:

def generate_wordcloud(text): # optionally add: stopwords=STOPWORDS and change the arg below
    wordcloud = WordCloud(
                          background_color="white",
                          width=1200, height=1000,
                          relative_scaling = 1.0,
                          collocations=False
                          ).generate(text)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

cidf=cidf.loc[cidf.index.repeat(cidf['sumCI'])].reset_index(drop=True)
strCI = ' '.join(cidf['vocab'])
print(strCI)
generate_wordcloud(strCI)

, а затем результат выглядит так:

, как вы видите, большинство словповторяется 2 или 3 раза, но их размер в облаке слов не показывает этого.даже для слов одинакового размера существует большая разница в размерах!enter image description here

например:

Например, посмотрите на «тинниту» и «дизурия» в этом кадре данных, который имеет частотуиз 3, тинниту довольно большая, но дизурия вы найдете очень трудно, так как она очень маленькая.

Спасибо:)

1 Ответ

0 голосов
/ 14 февраля 2019

Ну, я понял это, ища alooot.В итоге я использовал generate_from_frequencies(text), а не только генерируй.Но все же в случае, если частота одинакова, это не дает одинаковый размер для всех из них.

Если вы посмотрите на документы, которые они также упомянули о рейтинге или порядке (это то, что яна самом деле не может понять, они лучше сделать это как вариант. Например, если алгоритм видит ту же частоту, что и подход должен быть 1. на основе порядка 2. ничего не делая и давая одинаковый размер).

Основываясь на моих исследованиях и результатах, когда он видит ту же частоту, а также на основании имеющегося пространства, он может изменить размер, что не хорошо.

Мои высказывания основаны только на моем эксперименте и чтении документов.

...