Обнаружены ошибки при запуске stats.pearsonr для двух столбцов в фрейме данных - PullRequest
0 голосов
/ 12 февраля 2019

Я пытаюсь запустить stats.pearsonr для двух столбцов (высота и скорость бега) в моем фрейме данных.Проблема заключается в следующем:

i.) Если я запускаю stats.pearsonr, не удаляя значения NaN в моем столбце высоты, результат будет (nan, 1)

ii.) Если я сначала удалюПри значениях nan по высоте сообщение об ошибке состоит в том, что эти два столбца имеют разные формы

 fifa_dataset['Height'].dropna(inplace=True)

iii.) Если я сбрасываю значения n для всего кадра данных, я теряю слишком много данных (например, некоторые проигрыватели в моем кадре данныхимеют значения NaN для команд, значения, трансфертную цену и т. д.).

fifa_dataset['Height'].dropna(inplace=True)

До этого я изменял значения в столбце высоты на строки:

fifa_dataset['Height']= fifa_dataset.Height.str.split("'").str.join('.').apply(lambda x: (float(x)*30.48)).dropna().astype(int)

Это набор данных IЯ взаимодействую с Данные

Я предполагаю, что это может иметь какое-то отношение к значениям в высоте, которые кажутся плавающими (например, 178.0), несмотря на то, что я преобразовал значения в целые числа в моей функции лямбда-выражениястолбца высоты:

0    173.0
1    188.0
2    179.0
3    195.0
4    155.0
Name: Height, dtype: float64

Образец столбца SprintSpeed:

0    86.0
1    91.0
2    90.0
3    58.0
4    76.0
Name: SprintSpeed, dtype: float64

1 Ответ

0 голосов
/ 12 февраля 2019

Решил эту проблему, используя spearmanr для проверки корреляции и добавив аргумент nan_policy = 'omit':

height_corr = stats.spearmanr(fifa_dataset['Height'], fifa_dataset['SprintSpeed'], nan_policy='omit')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...