Нарезка с логическим (логическим) выражением на Pandas Dataframe - PullRequest
0 голосов
/ 03 июля 2018

Я получаю исключение, когда пытаюсь нарезать логическим выражением мой фрейм данных Pandas.

Мои данные имеют следующую форму:

df
    GDP_norm    SP500_Index_deflated_norm
Year        
1980    2.121190    0.769400
1981    2.176224    0.843933
1982    2.134638    0.700833
1983    2.233525    0.829402
1984    2.395658    0.923654
1985    2.497204    0.922986
1986    2.584896    1.09770

df.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 38 entries, 1980 to 2017
Data columns (total 2 columns):
GDP_norm                     38 non-null float64
SP500_Index_deflated_norm    38 non-null float64
dtypes: float64(2)
memory usage: 912.0 bytes

Команда следующая:

df[((df['GDP_norm'] >=3.5 & df['GDP_norm'] <= 4.5) & (df['SP500_Index_deflated_norm'] > 3)) | (

   (df['GDP_norm'] >= 4.0 & df['GDP_norm'] <= 5.0) & (df['SP500_Index_deflated_norm'] < 3.5))]

Сообщение об ошибке следующее:

TypeError: cannot compare a dtyped [float64] array with a scalar of type [bool]

Ваш совет будет оценен.

Ответы [ 2 ]

0 голосов
/ 03 июля 2018

Вы страдаете от последствий цепных сравнений . Происходит выражение df['GDP_norm'] >=3.5 & df['GDP_norm'] <= 4.5, которое выглядит примерно так:

df['GDP_norm'] >= (3.5 & df['GDP_norm']) <= 4.5

Конечно, это терпит неудачу, поскольку float нельзя сравнить с bool, как описано в вашем сообщении об ошибке. Вместо этого используйте скобки, чтобы изолировать каждую логическую маску и присвоить переменным:

m1 = (df['GDP_norm'] >= 3.5) & (df['GDP_norm'] <= 4.5)
m2 = df['SP500_Index_deflated_norm'] > 3

m3 = (df['GDP_norm'] >= 4.0) & (df['GDP_norm'] <= 5.0)
m4 = df['SP500_Index_deflated_norm'] < 3.5

res = df[(m1 & m2) | (m3 & m4)]
0 голосов
/ 03 июля 2018

Я предлагаю создавать логические маски отдельно для лучшей читаемости, а также для упрощения обработки ошибок.

Здесь отсутствуют () в m1 и m2 коде, проблема в приоритете оператора:

документы - 6,16. Приоритет оператора, где см. &, имеет более высокий приоритет, чем >=:

Operator                                Description

lambda                                  Lambda expression
if – else                               Conditional expression
or                                      Boolean OR
and                                     Boolean AND
not x                                   Boolean NOT
in, not in, is, is not,                 Comparisons, including membership tests    
<, <=, >, >=, !=, ==                    and identity tests
|                                       Bitwise OR
^                                       Bitwise XOR
&                                       Bitwise AND

(expressions...), [expressions...],     Binding or tuple display, list display,       
{key: value...}, {expressions...}       dictionary display, set display

m1 = (df['GDP_norm'] >=3.5) & (df['GDP_norm'] <= 4.5)
m2 = (df['GDP_norm'] >= 4.0) & (df['GDP_norm'] <= 5.0)

m3 = m1 & (df['SP500_Index_deflated_norm'] > 3)
m4 = m2 & (df['SP500_Index_deflated_norm'] < 3.5)

df[m3 | m4]
...