Одновременная визуализация высокоразмерных данных - PullRequest
0 голосов
/ 23 марта 2019

Я пытаюсь визуализировать свои данные, чтобы я мог просмотреть все 200 столбцов один за другим.Я хотел бы иметь более интуитивно понятный способ понять мои данные.

Я пробовал Google, но не получил никакой помощи в визуализации данных большого размера.Люди говорят использовать PCA, но я хочу визуализировать мои необработанные данные в столбцах.

Набор данных Ссылка

Мой код

x0=df[df["target"]==0]
x1=df[df["target"]==1]

x0_100=x0[1:300]
x1_100=x1[1:300]
x=x1_100.append(x0_100)
y=x["target"]
x=x.drop("target",axis=1)

import matplotlib.pyplot as plt
fig = plt.figure(figsize = (60, 60))
j = 0
for i in x:
    plt.subplot(51,4, j+1)
    j += 1
    sns.boxplot(x=y,y=x[i])

I am getting this type of small figures really difficult to understand

1 Ответ

1 голос
/ 23 марта 2019

Я бы порекомендовал построить два разных прямоугольника с сотнями столбцов на каждом:

import numpy as np; np.random.seed(0)
import pandas as pd
import cufflinks as cf

df = cf.datagen.box(200)

df.iloc[:,0:100].plot(kind='box', rot=90, figsize=(14, 8))
plt.tight_layout()

df.iloc[:,100:].plot(kind='box', rot=90, figsize=(14, 8))
plt.tight_layout()

Box plot 1 Box plot 2

...