Визуализация наиболее часто встречающихся слов из набора данных текста в Python - PullRequest
0 голосов
/ 18 декабря 2018

У меня есть CSV, который содержит год и текст (расшифровка речи).

Я загрузил его в Dataframe и сделал с предварительной обработкой.

Затем у меня есть новый фрейм данных, который содержит слова и их периодичность в год, который выглядит следующим образом:

enter image description here

Столбец«слово» содержит оригинальное слово.И столбец, подобный «1970», содержит частоту того «слова», которое встречалось в речи того или иного года.Таким образом, столбцы «год» содержат частоту слов, упомянутых в столбце «слово».

Теперь я хочу визуализировать пять лучших слов, произносимых каждый год в одном графике.Это может быть любой вид визуализации, например точечные диаграммы.Все данные на одной фигуре с двумя осями, ось x - это год, а ось y - частота и слова рядом с точками данных или в легенде.

Есть ли способ сделать это в python?

1 Ответ

0 голосов
/ 20 декабря 2018

Вы можете использовать annotate, чтобы добавить метку к точке.Остальное просто сантехника например

import matplotlib.pyplot as plt

RANGE=(1970, 1974)
plt.xticks(range(*RANGE))
plt.xlim(RANGE)

def show(year, n=5):
    "Add the top-n words for a year to the current plot"
    top5 = df.nlargest(n, columns=str(year))
    plt.scatter([year]*n, top5[str(year)])
    for _,row in top5.iterrows():
        plt.annotate(row['word'], (year, row[str(year)]))

for year in range(*RANGE):
    show(year)
...