Мне нужно визуализировать этот набор данных. Сначала я получил сообщение о том, что у меня было несколько dtypes, поэтому я пытаюсь установить low_memory
на False
. Однако я не могу найти правильный синтаксис.
import numpy as np
import pandas as pd
import sklearn
import os
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.manifold import TSNE
import io
from google.colab import files
uploaded = files.upload()
train_data = pd.read_csv(io.BytesIO(uploaded['train.csv'],
low_memory=False))
num_rows = train_data.shape[0]
counter_nan = train_data.isnull().sum()
counter_without_nan = counter_nan[counter_nan == 0]
train_data = train_data[counter_without_nan.keys()]
train_data = train_data.drop({"Team", "DisplayName" , "GameClock" ,
"PossessionTeam" ,"OffensePersonnel" , "DefensePersonnel" ,
"PlayDirection" , "TimeHandoff" , "TimeSnap" , "PlayerHeight" ,
"PlayerBirthDate" , "PlayerCollegeName" , "Position" , "HomeTeamAbbr" ,
"VisitorTeamAbbr" , "Stadium" , "Location", "Turf"},axis = 1)
c = train_data.iloc[:,:-1].values
standard_scalar = StandardScaler()
c_std = standard_scalar.fit_transform(c)
tsne = TSNE(n_components=2, random_state = 0)
c_test_2d = tsne.fit_transform(c_std)
markers = ('s', 'd', 'o', '^', 'v')
color_map = {0:'red', 1:'blue' ,2:'lightgreen',3:'purple', 4:'cyan'}
plt.figure()
for idx, cl in enumerate(np.unique(c_test_2d)):
plt.scatter(x=c_test_2d[cl,0], y= c_test_2d[cl,1], c=color_map[idx],
marker=markers[idx], label=cl)
plt.show()
Я ожидаю:
train_data = pd.read_csv(io.BytesIO(uploaded['train.csv'], low_memory=False))
, чтобы установить low_memory
в False
.