Визуализация (график) набора данных CSV с использованием PCA на ноутбуке Jupyter - PullRequest
0 голосов
/ 22 апреля 2020

У меня есть следующий код, который показывает список сообщений со спамом / ветчиной из CSV-файла ...

data = pd.read_csv('spam.csv', encoding='latin-1', delimiter='\t', header=None) data

enter image description here

Я хочу показать график (кластер) моего набора данных CSV, используя PCA, что-то вроде этого (где зеленым цветом являются спам и голубая ветчина, например)

enter image description here

1 Ответ

0 голосов
/ 22 апреля 2020

Вы можете сопоставить метки «ветчина» и «спам» категориям, а затем использовать matplotlib.pyplot.scatter для построения точечного графика. Это позволяет относительно легко добавлять новые метки и в будущем.

import matplotlib.pyplot as plt

# map 'ham' and 'spam' labels to numbers
df['label_num'] = df['ham/spam'].map({ 'ham': 0, 'spam': 1 })

# scatter plot
plt.scatter(df['x'], df['y'], cmap='rainbow', c=df['label_num'])
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...