Линейный дискриминантный анализ (ошибка: индекс 1 выходит за границы) - PullRequest
1 голос
/ 11 марта 2019

У меня есть набор данных. первые 10 чисел - это мои функции (один, два, ..., десять), а последний столбец - моя цель (есть только 2 цели, включая MID и HIGH). Данные сохраняются в формате txt (data.txt), например:

200000,400000,5000000,100000,5000000,50000,50000,300000,3333,1333,MID
200000,100000,500000,100000,5000000,5000,50000,300000,2000,1333,MID
100000,400000,5000000,100000,5000000,5000,50000,300000,2000,3333,MID
400000,200000,50000000,100000,5000000,5000,50000,300000,3333,3333,MID
200000,200000,5000000,100000,5000000,5000,50000,300000,3333,1333,HIGH
200000,100000,500000,10000000,5000000,50000,50000,300000,3333,3333,HIGH
100000,200000,500000,100000,5000000,50000,50000,300000,3333,666,HIGH
200000,100000,500000,1000000,5000000,50000,50000,300000,3333,666,HIGH
200000,100000,5000000,1000000,5000000,50000,5000,300000,3333,1333,HIGH

Я попытался реализовать анализ LDA на основе доступных учебных пособий. Я также использовал StandardScaler для нормализации, потому что единицы измерения столбцов nine и ten отличаются от первых 8 столбцов. Вот что я попробовал:

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
import math
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.preprocessing import StandardScaler

df = pd.read_csv('data.txt', header=None)
df.columns=['one','two','three','four','five','six','seven','eight','nine','ten','class']
X = df.ix[:,0:10].values
y = df.ix[:,10].values
X_std = StandardScaler().fit_transform(X)

lda = LinearDiscriminantAnalysis(n_components=2)
X_r2 = lda.fit_transform(X_std,y)

with plt.style.context('seaborn-whitegrid'):
    plt.figure(figsize=(8, 6))
    for lab, col in zip(('MID', 'HIGH'),
                        ('blue', 'red')):
        plt.scatter(X_r2[y==lab, 0],
                    X_r2[y==lab, 1],
                    label=lab,s=100,
                    c=col)
    plt.xlabel('LDA 1')
    plt.ylabel('LDA 2')
    plt.legend(loc='lower right')
    plt.tight_layout()
    plt.savefig('Results.png', format='png', dpi=1200)
    plt.show()

Я получаю эту ошибку:

line 32, in <module>X_r2[y==lab, 1],
IndexError: index 1 is out of bounds for axis 1 with size 1

Кто-нибудь знает, как я могу решить эту проблему? Заранее благодарим за помощь.

1 Ответ

2 голосов
/ 11 марта 2019

Если ваша целевая переменная имеет только два уникальных значения, тогда n_components, сгенерированные LDA, будут только 1, даже если вы укажете ее как 2.

Из документации:

n_components : int, необязательно
Количество компонентов ( для уменьшения размерности.

Следовательно, если вы добавите одну строку для чего-то вроде следующего в ваш набор данных,

200000,400000,5000000,100000,5000000,50000,50000,300000,3333,1333,LOW

код обновлен для еще одной категории в y:

import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from matplotlib import pyplot as plt

df.columns=['one','two','three','four','five','six','seven','eight','nine','ten','class']
X = df.ix[:,0:10].values
y = df.ix[:,10].values
X_std = StandardScaler().fit_transform(X)

lda = LinearDiscriminantAnalysis(n_components=2)
X_r2 = lda.fit_transform(X_std,y)

with plt.style.context('seaborn-whitegrid'):
    plt.figure(figsize=(8, 6))
    for lab, col in zip(('MID', 'HIGH','LOW'),
                        ('blue', 'red','green')):
        plt.scatter(X_r2[y==lab, 0],
                    X_r2[y==lab, 1],
                    label=lab,s=100,
                    c=col)
    plt.xlabel('LDA 1')
    plt.ylabel('LDA 2')
    plt.legend(loc='lower right')
    plt.tight_layout()
    plt.savefig('Results.png', format='png', dpi=1200)
    plt.show()

Будет генерировать следующий сюжет!

enter image description here

...