Question

Я пытаюсь ускорить свою программу, я довольно новичок в python и pandas, и я просто использовал этот код, чтобы увидеть, работает ли он, но есть ли способ ускорить его.Я знаю, что itterrows очень медленные и, возможно, функция .apply работает быстрее, но я понятия не имею, как ее использовать, когда я хочу использовать в ней текущую позицию строки.Может быть, один из вас может помочь мне.

Вот мой код:

for i, row in df.iterrows():
    if df.iloc[i, 2] == 1000:
        list = []
        datum = df.iloc[i, 0]
        id = df.iloc[i, 1]
        for j, row in df.iterrows():
            if df.iloc[j, 0] == datum:
                if df.iloc[j, 0] != id:
                    waarde = df.iloc[j, 2]
                    if waarde != 1000:
                        waarde2 = df.iloc[j-1, 2]
                        respectivelijk = waarde / waarde2
                        # print(waarde)
                        # print(waarde2)
                        # print(respectivelijk)
                        list.append(respectivelijk)
        # print(list)
        gem = sum(list) / len(list)
        # print(gem)
        # print(df.iloc[i-1, 2])
        correcte_waarde = (gem * df.iloc[i-1, 2])
        # print(correcte_waarde)
        df.set_value(i, 'water_level', correcte_waarde)

Мой фрейм данных выглядит так: https://gyazo.com/0fdce9cbac81562195e4f24d55eac9a9 Я использую этот код для замены ошибок(значение 1000) со значением, основанным на изменениях в стоимости других объектов.Например, если все другие объекты повышаются на 50% за час отсутствия, я могу предположить / оценить, что недостающее значение также возрастет на 50%.

pookie · Answer 1 · 07 декабря 2018

Я не могу сказать из вашего объяснения, что именно вы хотите достичь.Я предполагаю, что

1) вы хотите найти все строки, где значение Value (вы должны использовать другое имя здесь ...) равно equal to 1000, поскольку оно представляет ошибку чтения.
2) затем вы хотите заменить 1000 на что-то более репрезентативное, например, с помощью интерполяции.

Я буду работать на основе этих двух предположений.Я использую столбец temp для представления столбца value.

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# seed for reproducibility
np.random.seed(seed=1111)

# generate a dataframe with random datetimes and values
date_today = datetime.now()
days = pd.date_range(date_today, date_today + timedelta(1000), freq='D')
data = np.random.randint(1, high=100, size=len(days))
df = pd.DataFrame({'the_date': days, 'temp': data})
df = df.set_index('the_date')

print(df)

# get all the indicies of the temp column where the value equals 23. Change it to 1000 for your data.
select_indices = list(np.where(df["temp"] == 23)[0])

# replace all values in the temp column that equal 23 with NAN. Change 23 to 1000 for your data.
df.loc[df['temp'] == 23] = np.nan

# interpolate the data and replace the NAN's
interpolated_df = df.interpolate(method='linear', axis=0).ffill().bfill()

# get the interpolated rows, just to see what values the NAN's were replaced with
interpolated_rows = interpolated_df.iloc[select_indices]

print(interpolated_rows)

Надеюсь, это поможет.

Python, что использовать вместо itterrows в этом случае?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python, что использовать вместо itterrows в этом случае?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов