Question

В CSV-файле много станций, я не знаю, как использовать цикл для подсчета количества наноструктур на каждой станции. Там я так далеко, считай по одному. Может кто-нибудь помочь мне, пожалуйста, спасибо заранее.

station1= train_df[train_df['station'] == 28079004]
station1 = station1[['date', 'O_3']]
count_nan = len(station1) - station1.count()
print(count_nan)

Anton vBR · Answer 1 · 05 сентября 2018

Хотя Джез уже ответил, и этот ответ, вероятно, лучше здесь. Вот как будет выглядеть группа:

import pandas as pd
import numpy as np

np.random.seed(444)
n = 10

train_df = pd.DataFrame({
    'station': np.random.choice(np.arange(28079004,28079008), size=n),
    'date': pd.date_range('2018-01-01', periods=n),
    'O_3': np.random.choice([np.nan,1], size=n)
})

print(train_df)

s = train_df.groupby('station')['O_3'].apply(lambda x: x.isna().sum())
print(s)

печать:

    station       date  O_3
0  28079007 2018-01-01  NaN
1  28079004 2018-01-02  1.0
2  28079007 2018-01-03  NaN
3  28079004 2018-01-04  NaN
4  28079007 2018-01-05  NaN
5  28079004 2018-01-06  1.0
6  28079007 2018-01-07  NaN
7  28079004 2018-01-08  NaN
8  28079006 2018-01-09  NaN
9  28079007 2018-01-10  1.0

И вывод (ы):

station
28079004    2
28079006    1
28079007    4

jezrael · Answer 2 · 05 сентября 2018

Я думаю, что нужно создать индекс по station столбцу с set_index, фильтровать столбцы для проверки пропущенных значений и в последний раз считать их по sum:

train_df = pd.DataFrame({'B':[4,5,4,5,5,4],
                   'C':[7,8,9,4,2,3],
                   'date':pd.date_range('2015-01-01', periods=6),
                   'O_3':[np.nan,3,np.nan,9,2,np.nan],
                   'station':[28079004] * 2 + [28079005] * 4})

print (train_df)
   B  C       date  O_3   station
0  4  7 2015-01-01  NaN  28079004
1  5  8 2015-01-02  3.0  28079004
2  4  9 2015-01-03  NaN  28079005
3  5  4 2015-01-04  9.0  28079005
4  5  2 2015-01-05  2.0  28079005
5  4  3 2015-01-06  NaN  28079005

df = train_df.set_index('station')[['date', 'O_3']].isnull().sum(level=0).astype(int)
print (df)
          date  O_3
station            
28079004     0    1
28079005     0    2

Другое решение:

df = train_df[['date', 'O_3']].isnull().groupby(train_df['station']).sum().astype(int)
print (df)
          date  O_3
station            
28079004     0    1
28079005     0    2

Как использовать цикл для подсчета количества нан

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как использовать цикл для подсчета количества нан

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов