Визуализация текстовых классов в точечной диаграмме - PullRequest
0 голосов
/ 12 марта 2020

Я ищу способы исследовать в моём поезде «моделизм данных» и проверить, хорошо ли различаются классы с точки зрения словарного запаса ... et c.

Я немного смущен, но я Интересно, можно ли сделать точечный график для модели классификации текста в факеле? или любой другой подход к исследованию качества данных.

1 Ответ

0 голосов
/ 19 апреля 2020

Вы можете использовать уменьшение размерности (PCA, t-SNE или UMAP) + оттенок цвета для проверки ваших данных. Я рекомендую использовать bokeh для интерактивного просмотра ваших данных, хотя здесь я покажу вам с seaborn.

import numpy as np
import seaborn as sns
import umap
from sklearn.datasets import load_digits

digits = load_digits()

embedding = umap.UMAP().fit_transform(digits.data)  # 2D embedding

sns.scatterplot(x=embedding[:,0], y=embedding[:,1], hue=digits.target)

enter image description here

...