Question

У моего dataframe много столбцов. один из этих столбцов является массивом

df
Out[191]: 
       10012005  10029008  10197000  ...  filename_int  filename      result
0           0.0       0.0       0.0  ...             1       1.0  [280, NON]
1           0.0       0.0       0.0  ...            10      10.0  [286, NON]
2           0.0       0.0       0.0  ...           100     100.0  [NON, 285]
3           0.0       0.0       0.0  ...         10000   10000.0  [NON, 286]
4           0.0       0.0       0.0  ...         10001   10001.0       [NON]
        ...       ...       ...  ...           ...       ...         ...
52708       0.0       0.0       0.0  ...          9995    9995.0       [NON]
52709       0.0       0.0       0.0  ...          9996    9996.0       [NON]
52710       0.0       0.0       0.0  ...          9997    9997.0  [285, NON]
52711       0.0       0.0       0.0  ...          9998    9998.0       [NON]
52712       0.0       0.0       0.0  ...          9999    9999.0       [NON]

[52713 rows x 4289 columns]

результат столбца является массивом этих значений

[NON]
[123,NON]
[357,938,837]
[455,NON,288]
[388,929,NON,020]

Я хочу, чтобы в моем фрейме данных фильтра отображались только записи, значения которых отличны от NON

поэтому значения, такие как

[NON,NON]
[NON]
[]

, будут исключены

только в значениях файла, таких как

[123,NON]
[357,938,837]
[455,NON,288]
[388,929,NON,020]

Я пробовал этот код

df[len(df["result"])!="NON"]

но я получаю эту ошибку !!

  File "pandas\_libs\hashtable_class_helper.pxi", line 1614, in pandas._libs.hashtable.PyObjectHashTable.get_item

KeyError: True

как отфильтровать мой фрейм данных?

cs95 · Answer 1 · 25 апреля 2020

Попробуйте map с lambda здесь:

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [[280, 'NON'], ['NON'], [], [285]] })
df

   A           B
0  1  [280, NON]
1  2       [NON]
2  3          []
3  4       [285]

df[df['B'].map(lambda x: any(y != 'NON' for y in x))]

   A           B
0  1  [280, NON]
3  4       [285]

Выражение генератора внутри map возвращает True, если в списке есть хотя бы 1 элемент «NON».

WeNYoBen · Answer 2 · 25 апреля 2020

Я сделаю

s=pd.DataFrame(df.B.tolist())
df=df[(s.ne('NON')&s.notnull()).any(1).to_numpy()].copy()
   A           B
0  1  [280, NON]
3  4       [285]

user515663 · Answer 3 · 25 апреля 2020

Вы можете использовать apply для определения строк, которые соответствуют вашим критериям. Здесь фильтр работает, потому что apply возвращает boolean.

import pandas as pd
import numpy as np

vals = [280, 285, 286, 'NON', 'NON', 'NON']
listcol = [np.random.choice(vals, 3) for _ in range(100)] 
df = pd.DataFrame({'vals': listcol})

def is_non(l):
    return len([i for i in l if i != 'NON']) > 0

df.loc[df.vals.apply(is_non), :]

Фильтр pandas данных на основе значений списка столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Фильтр pandas данных на основе значений списка столбцов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов