Как пользователь R, я могу манипулировать столбцами в data.table для получения набора новых столбцов, каков наилучший способ достичь этого с помощью pandas datafframes?
Вот воспроизводимый пример (я использую R 3.2.5 и Python 3.6):
R код:
library(data.table)
df = data.table(iris)
df[,.(ratio1 = Sepal.Length/Sepal.Width, ratio2 = Petal.Length/Petal.Width)]
df[,.(ratio1 = Sepal.Length/Sepal.Width, ratio2 = Petal.Length/Petal.Width)]
Последняя команда вернет:
> df[,.(ratio1 = Sepal.Length/Sepal.Width, ratio2 = Petal.Length/Petal.Width)]
ratio1 ratio2
1: 1.457143 7.000000
2: 1.633333 7.000000
3: 1.468750 6.500000
4: 1.483871 7.500000
5: 1.388889 7.000000
---
146: 2.233333 2.260870
147: 2.520000 2.631579
148: 2.166667 2.600000
149: 1.823529 2.347826
150: 1.966667 2.833333
Код Python:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
pd.DataFrame(list(df.apply(lambda x: {'ratio1':x['sepal length (cm)']/x['sepal width (cm)'], 'ratio2':x['petal length (cm)']/x['petal width (cm)']}, axis=1)))
Последняя команда вернет:
In[6]: pd.DataFrame(list(df.apply(lambda x: {'ratio1':x['sepal length (cm)']/x['sepal width (cm)'], 'ratio2':x['petal length (cm)']/x['petal width (cm)']}, axis=1)))
Out[6]:
ratio1 ratio2
0 1.457143 7.000000
1 1.633333 7.000000
2 1.468750 6.500000
3 1.483871 7.500000
4 1.388889 7.000000
5 1.384615 4.250000
Вот мой вопрос: моя реализация Python кажется мне неэффективной. Я вычисляю ряд словарей, проектирую их в список и затем вызываю конструктор DataFrame. Другими словами, это не прямое манипулирование с фреймов данных на фреймы данных. Это переводит в подробный код: последняя строка фрагмента R - 76 символов, последняя строка Python - 158.
Есть ли лучший способ сделать это? Спасибо!
P.S. Обратите внимание, что я не хочу постоянно добавлять производные столбцы (ratio1, ratio2 в примере) в исходный набор данных. Я хочу вычислить что-то на лету и построить его или объединить без изменения данных.