Фильтр значений в pandas данных, сохраняя NaN - PullRequest
4 голосов
/ 06 февраля 2020

Я пытаюсь отфильтровать данные из кадра данных, которые меньше определенного значения. Если нет NaN, то он работает нормально. Но когда есть нан, то он игнорирует значение NaN. Я хочу включить все время, не имеет значения, меньше или больше, чем сравниваемое значение.

import pandas as pd
import numpy as np

df = pd.DataFrame(
    {
        'index': [1, 2, 3,  4,  5,  6,   7,  8, 9],
        'value': [5, 6, 7, np.nan, 9, 3, 11, 34, 78]
    }
)

df_chunked = df[(df['index'] >= 1) & (df['index'] <= 5)]

print('df_chunked')
print(df_chunked)

df_result = df_chunked[(df_chunked['value'] < 10)]
# df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]

print('df_result')
print(df_result)

enter image description here

В приведенном выше результате 5,6,7,9 показывает. но я тоже хочу нанятую. Я пытался с

df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]

Но это не работает.

Как я могу это сделать?

Ответы [ 3 ]

2 голосов
/ 06 февраля 2020

Используйте , а не оператор: ~

df_chunked[~(df_chunked['value'].ge(10))]
#df_chunked[~(df_chunked['value']>=10)] #greater or equal(the same)

   index  value
0      1    5.0
1      2    6.0
2      3    7.0
3      4    NaN
4      5    9.0

почему?

Поскольку логические операции просто игнорировать NaN значения и принять его как False, всегда, как вы можете видеть в следующем фрейме данных, тогда, если вы хотите избежать использования series.isna (избегайте ненужного дополнительного кода) и упростите свой код, просто используйте обратную логику c с ~

print(df.assign(greater_than_5 = df['value'].gt(5),
          not_greater_than_5 = df['value'].le(5)))


   index  value  greater_than_5  not_greater_than_5
0      1    5.0           False                True
1      2    6.0            True               False
2      3    7.0            True               False
3      4    NaN           False               False
4      5    9.0            True               False
5      6    3.0           False                True
6      7   11.0            True               False
7      8   34.0            True               False
8      9   78.0            True               False
2 голосов
/ 06 февраля 2020

Попробуйте:

df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'].isna())]
df_result 
   index  value
0      1    5.0
1      2    6.0
2      3    7.0
3      4    NaN
4      5    9.0
0 голосов
/ 06 февраля 2020

Вы можете просто определить свой df_result следующим образом:

df_result = df_chunked[(df_chunked["value"] < 10) | (df_chunked["value"].isnull())]

Это работает.

...