хи-квадрат для некатегоричных данных - PullRequest
0 голосов
/ 13 октября 2019

Я искал несколько примеров использования квадрата Хи для выбора объекта и обнаружил следующий код:

import pandas
import numpy
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pandas.read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)
# summarize scores
numpy.set_printoptions(precision=3)
print(fit.scores_)
features = fit.transform(X)
# summarize selected features
print(features[0:5,:])

Проблема, которую я вижу, состоит в том, что эти переменные являются непрерывными, и длячто я знаю, что использование квадрата Хи не для непрерывных данных, а для того, что я знаю, когда данные непрерывны, переменные должны быть связаны, я прав?

У меня есть два вопроса по этому поводу:

  • верно ли этот пример?
  • как я могу связать эти непрерывные переменные?

Спасибо

...