У меня есть диктат временных рядов в виде pandas.DataFrame
объектов, каждый с произвольным числом столбцов.
Я хочу преобразовать каждый DataFrame в список dict (например, [{"col1": "row1", "col2": "row2", ..}, {"col1": "row2", ..}, ..]
, затем отсортировать их по значению timestamp каждого dict (timestamp является обязательным в каждом DataFrame).
Это вопрос повышения производительности. Код ниже работает, но я пытаюсь найти самый быстрый способ сделать это.
Я знаю, что эту проблему можно распараллелить, но не уверен, что это оптимальный маршрут.
import pandas as pd
import numpy as np
def gen_random_df(rows):
df = pd.DataFrame({'x': np.random.normal(rows), 'y': np.random.normal(rows), 'z': np.random.normal(rows)},
index=pd.date_range('1900-01-01', '2049-12-31')[:rows])
df.index.name = 'timestamp'
return df
def to_list1(df, symbol):
df = df.reset_index()
return [dict(zip(df.columns, v), symbol=symbol) for v in df.values]
def method1(dict_of_dfs):
data = []
for symbol, df in dict_of_dfs.items():
data.extend(to_list1(df, symbol))
return sorted(data, key=lambda x: x['timestamp'])
Второй метод:
def method2(dict_of_dfs):
dict_of_dfs = {symbol: df.assign(symbol=symbol) for symbol, df in dict_of_dfs.items()}
data = pd.concat(dict_of_dfs.values(), axis=0).reset_index().to_dict('index').values()
return list(data)
Вот производительность двух подходов. Метод1 самый быстрый, но можно ли его улучшить?
symbols = 10
rows = 10_000
dict_of_dfs = {str(symbol): gen_random_df(rows) for symbol in range(symbols)}
%timeit result = method1(dict_of_dfs)
1.46 s ± 64.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
it
%timeit result = method2(dict_of_dfs)
1.87 s ± 102 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Вот ожидаемый результат:
result[:3]
[{'timestamp': Timestamp('1900-01-01 00:00:00'),
'x': 9998.31375178033,
'y': 10000.298442533112,
'z': 9999.538765089255,
'symbol': '0'},
{'timestamp': Timestamp('1900-01-02 00:00:00'),
'x': 9998.31375178033,
'y': 10000.298442533112,
'z': 9999.538765089255,
'symbol': '0'},
{'timestamp': Timestamp('1900-01-03 00:00:00'),
'x': 9998.31375178033,
'y': 10000.298442533112,
'z': 9999.538765089255,
'symbol': '0'}]