Почему я получаю NaN при использовании .mean () - PullRequest
0 голосов
/ 28 июня 2019

Это часть открытого курса GIT, который я беру в свободное время для изучения Python.Упражнение имеет дело только с NumPy.Итак, ниже идет создание пути к файлу и импорт данных.Я добавил skip_header, потому что имена столбцов являются строками, и я получаю Nan.Итак, данные имеют 33 столбца, и мне нужно только 5, которые я добавил, используя usecols.

import numpy as np
fp = 'C:\\Users\\matij\\Documents\\exercise-5-MatijaKordic\\6153237444115dat.csv'
data = np.genfromtxt(fp, skip_header =1, usecols=(0, 2, 22, 27, 28), delimiter=',')

Далее мне нужно разделить данные на отдельные переменные, которые называются станция, дата, температура, температура_макс и температура_мин.Они соответствуют usecols = (0, 2, 22, 27, 28).

station = data[:, 0]
date = data[:, 1]
temp = data[:, 2]
temp_max = data[:, 3]
temp_min = data[:, 4]

После этого мне нужно вычислить следующее:

Какова средняя температура по Фаренгейту в данных?(временная переменная)

Каково стандартное отклонение максимальной температуры?(переменная temp_max)

Сколько уникальных станций существует в данных?(переменная станции)

Итак, я сделал это:

temp_mean = temp.mean()
temp_max_std = temp_max.std()
station_count = np.unique(station)

И я получил NaN для среднего и макс.Для уникальных станций я получаю [28450.29980.] поэтому я полагаю, мне нужно как-то добавить счет в?

Что касается среднего и максимального: - Макс это Нэн, так что все в порядке.Не уверен, почему у меня это в назначении, но это другая история.- Имею ввиду, однако, причина этого вопроса.Когда я печатаю temp, я получаю значения, так почему я получаю NaN для temp.mean?

Вот ссылка на csv, если кому-то интересно: https://drive.google.com/file/d/1rGneQTfUe2rq1HAPQ06rvLDxzi-ETgKe/view?usp=sharing

Ответы [ 2 ]

3 голосов
/ 28 июня 2019

Я согласен с постом Анубхава, но вместо этого предлагаю использовать: np.nanmean(temp) для вычисления среднего значения, забывая NaN (не число). Вы также получите то же самое значение: 41.58918641457781. И то же самое с max:

print(np.nanmean(temp))
print(np.nanmax(temp))

Выход:

41.58918641457781
65.0
1 голос
/ 28 июня 2019

Вы получаете nan, потому что некоторые данные в массиве numpy равны nan.Попробуйте это:

temp_mean = temp[~np.isnan(temp)].mean()
print(temp_mean)
temp_max_std = temp_max[~np.isnan(temp_max)].std()
print(temp_max_std)
station_count = np.unique(station)

вывод:

41.58918641457781
9.734807757434636
array([28450., 29980.])
...