Question

У меня большой Dataframe, вот пример данных:

df['length']
353.216  
353.514  
273.559  
274.199  
353.813  
354.116

Я хочу перебрать строки и сравнить i + 1 со строкой i (и если разница меньше 2, тозначение должно остаться, иначе вся строка должна быть отфильтрована), я попытался с логическим индексированием: diff = abs(df['length']).diff() < 2, а затем df_clean = df[diff]

Я хочу избавиться от всех «неправильных» строк.Я знаю, что каждый ряд i + 1 должен быть в диапазоне + - 2.Проблема в том, что может быть более одного ряда.Я хочу избавиться от 273.559 и 274.199 (в данном случае), так как разница между ними меньше 2, мне нужно будет повторить все строки два раза.Включение цикла for для многократного повторения не кажется мне лучшим подходом, какие-либо хорошие решения?

Редактировать: Мой вывод должен выглядеть следующим образом:

df_clean_data ['length']
353.216  
353.514  
353.813  
354.116

Спасибозаранее Зига

Valdi_Bo · Answer 1 · 21 ноября 2018

Ключом к успеху является функция, работающая почти так же, как diff():

def mark(x):
    global prevX
    difr = abs(x - prevX)
    result = difr >= 2
    if not result:
        prevX = x
    return result

Но различия заключаются в следующем:

Эта функция использует глобальную переменную "предыдущий x"(prevX), содержащий изначально первое length (программа должна установить его).
Подстановка текущего x в prevX происходит только , еслиразница меньше 2. Таким образом, в этом отношении мы «пропускаем» удаляемые строки.

Первоначальный шаг - установить prevX на 1-ю длину:

prevX = df.loc[0, 'length']

А фактическая обработка выполняется с помощью одной инструкции:

df.drop(df[df['length'].apply(mark)].index, inplace=True)

Немного объяснения:

df['length'].apply(mark) генерирует логический массив.True означает «эта строка должна быть удалена».В целях указания выполните эту команду в одиночку (перед удалением).
df[...].index создает список значений индекса для этих строк.
df.drop удаляет строки с заданными индексами (на месте).

Таким образом, весь скрипт выглядит следующим образом:

import pandas as pd

def mark(x):
    global prevX
    difr = abs(x - prevX)
    result = difr > 2
    if not result:
        prevX = x
    return result

data={ 'length': [ 353.216, 353.514, 273.559, 274.199, 353.813, 354.116 ] }
df = pd.DataFrame(data)
prevX = df.loc[0, 'length']
df.drop(df[df['length'].apply(mark)].index, inplace=True)

Результат:

Альтернатива: если вы хотите получить результат в другом Dataframe,удалите inplace=True и подставьте результат в целевую переменную.

Anuprita · Answer 2 · 21 ноября 2018

Ваш вопрос не совсем ясен, но все же, что я понял, я пытаюсь предложить какой-то способ.

отсортировать DataFrame по этому столбцу (длина)
использование для проверки петли для вашей разницы
, если вы хотите, чтобы эта запись добавила ее в новый DataFrame
используйте новыйDataFrame

другой способ Поскольку у вас есть Big DataFrame

, сортируйте DataFrame по этому столбцу (длина)
создайте новый столбец
, используя для проверки цикла вашу разницу
, если вы этого не хотитезапись записи np.nan в новом столбце
удалить все записи, содержащие np.nan в новом столбце

Итеративные строки в кадре данных исключают при выполнении условия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Итеративные строки в кадре данных исключают при выполнении условия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов