Question

Итак, я создал этот пост о моей проблеме 2 дня назад и, к счастью, получил ответ.

У меня есть данные, состоящие из 20 строк и 2500 столбцов.Каждый столбец представляет собой уникальный продукт, а строки представляют собой временные ряды, результаты измерений.Поэтому каждый продукт измеряется 20 раз, а есть 2500 продуктов.

На этот раз я хочу знать, сколько последовательных строк результат моего измерения может оставаться выше определенного порога.АКА: Я хочу посчитать количество последовательных значений, которые выше значения, скажем, 5.

A = [1, 2, 6 , 8 , 7 , 3, 2, 3, 6 , 10 , 2, 1, 0, 2] Эти значения выделены жирным шрифтоми в соответствии с тем, что я определил выше, я должен получить NumofConsFeature = 3 в качестве результата.(Получение максимума, если существует более 1 серии, которая удовлетворяет условию)

Я думал о фильтрации с использованием .gt, затем получал индексы и впоследствии использовал цикл для обнаружения последовательных номеров индексов, но не могсделать так, чтобы это работало.

На втором этапе я бы хотел узнать индекс первого значения моего последовательного ряда.Для приведенного выше примера это будет 3. Но я понятия не имею, как для этого.

Заранее спасибо.

Divakar · Answer 1 · 05 октября 2018

Вот один с maxisland_start_len_mask -

# https://stackoverflow.com/a/52718782/ @Divakar
def maxisland_start_len_mask(a, fillna_index = -1, fillna_len = 0):
    # a is a boolean array

    pad = np.zeros(a.shape[1],dtype=bool)
    mask = np.vstack((pad, a, pad))

    mask_step = mask[1:] != mask[:-1]
    idx = np.flatnonzero(mask_step.T)
    island_starts = idx[::2]
    island_lens = idx[1::2] - idx[::2]
    n_islands_percol = mask_step.sum(0)//2

    bins = np.repeat(np.arange(a.shape[1]),n_islands_percol)
    scale = island_lens.max()+1

    scaled_idx = np.argsort(scale*bins + island_lens)
    grp_shift_idx = np.r_[0,n_islands_percol.cumsum()]
    max_island_starts = island_starts[scaled_idx[grp_shift_idx[1:]-1]]

    max_island_percol_start = max_island_starts%(a.shape[0]+1)

    valid = n_islands_percol!=0
    cut_idx = grp_shift_idx[:-1][valid]
    max_island_percol_len = np.maximum.reduceat(island_lens, cut_idx)

    out_len = np.full(a.shape[1], fillna_len, dtype=int)
    out_len[valid] = max_island_percol_len
    out_index = np.where(valid,max_island_percol_start,fillna_index)
    return out_index, out_len

def maxisland_start_len(a, trigger_val, comp_func=np.greater):
    # a is 2D array as the data
    mask = comp_func(a,trigger_val)
    return maxisland_start_len_mask(mask, fillna_index = -1, fillna_len = 0)

Пробный прогон -

In [169]: a
Out[169]: 
array([[ 1,  0,  3],
       [ 2,  7,  3],
       [ 6,  8,  4],
       [ 8,  6,  8],
       [ 7,  1,  6],
       [ 3,  7,  8],
       [ 2,  5,  8],
       [ 3,  3,  0],
       [ 6,  5,  0],
       [10,  3,  8],
       [ 2,  3,  3],
       [ 1,  7,  0],
       [ 0,  0,  4],
       [ 2,  3,  2]])

# Per column results
In [170]: row_index, length = maxisland_start_len(a, 5)

In [172]: row_index
Out[172]: array([2, 1, 3])

In [173]: length
Out[173]: array([3, 3, 4])

Mehmet nuri · Answer 2 · 12 марта 2019

Есть простой способ сделать это.
Допустим, ваш список похож на: A = [1, 2, 6, 8, 7, 6, 8 , 3, 2, 3, 6, 10,6,7,8 , 2, 1, 0, 2]
И вы хотите узнать, сколько последовательных рядов имеет значения больше 6 и длину 5. Например, здесь ваш ответ 2Существует две серии, значения которых больше 6, а длина серии равна 5. В питоне и пандах мы делаем это, как показано ниже:

 condition = (df.wanted_row > 6) & \
            (df.wanted_row.shift(-1) > 6) & \
            (df.wanted_row.shift(-2) > 6) & \
            (df.wanted_row.shift(-3) > 6) & \
            (df.wanted_row.shift(-4) > 6)

consecutive_count = df[condition].count().head(1)[0]

andrew_reece · Answer 3 · 05 октября 2018

Вы можете применить diff() к вашей серии, а затем просто посчитать количество последовательных записей, где разница равна 1, а фактическое значение выше вашего предела.Наибольшее количество - это максимальное количество последовательных значений.

Первое вычисление diff():

df = pd.DataFrame({"a":[1, 2, 6, 7, 8, 3, 2, 3, 6, 10, 2, 1, 0, 2]})
df['b'] = df.a.diff()

df
     a    b
0    1  NaN
1    2  1.0
2    6  4.0
3    7  1.0
4    8  1.0
5    3 -5.0
6    2 -1.0
7    3  1.0
8    6  3.0
9   10  4.0
10   2 -8.0
11   1 -1.0
12   0 -1.0
13   2  2.0

Теперь считайте последовательные последовательности:

above = 5
n_consec = 1
max_n_consec = 1

for a, b in df.values[1:]:
    if (a > above) & (b == 1):
        n_consec += 1
    else: # check for new max, then start again from 1
        max_n_consec = max(n_consec, max_n_consec)
        n_consec = 1

max_n_consec
3

Подсчет количества последовательных значений, удовлетворяющих условию (Pandas Dataframe)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсчет количества последовательных значений, удовлетворяющих условию (Pandas Dataframe)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы