Панды применяют несколько столбцов в строке вместо списка - PullRequest
0 голосов
/ 15 октября 2019

У меня проблемы с получением пандами, возвращающими несколько столбцов при использовании apply.

Пример:

import pandas as pd
import numpy as np
np.random.seed(1)

df = pd.DataFrame(index=range(2), columns=['a', 'b'])
df.loc[0] = [np.array((1,2,3))], 1
df.loc[1] = [np.array((4,5,6))], 1
df

             a  b
0  [[1, 2, 3]]  1
1  [[4, 5, 6]]  1

df2 = np.random.randint(1,9, size=(3,2))
df2

array([[4, 6],
       [8, 1],
       [1, 2]])

def example(x):
    return np.transpose(df2) @ x[0]

df3 = df['a'].apply(example)
df3

0    [23, 14]
1    [62, 41]

Я хочу, чтобы в df3 было два столбца с одним элементом в каждом столбце на строку, а неодин столбец с обоими элементами в строке.

Так что я хочу что-то вроде

df3Wanted
         col1  col2
    0    23    14
    1    62    41

Кто-нибудь знает, как это исправить?

Ответы [ 2 ]

2 голосов
/ 15 октября 2019

Для этого требуется пара изменений:

Обновите нижеприведенную функцию, как показано ниже

def example(x):
    return [np.transpose(df2) @ x[0]]

, и выполните операцию ниже при df3

wantedDF3 = pd.concat(df3.apply(pd.DataFrame, columns=['col1','col2']).tolist())

print(wantedDF3) дает желаемый результат:

 col1  col2
0    40    12
0    97    33

Редактировать: Еще один способ сделать то же самое, чтобы избежать проблем с памятью: сохраните вашу функцию example и df3 как есть (то же, что вопрос) ТеперьКроме того, используйте приведенный ниже код для генерации wantedDF3

col1df = pd.DataFrame(df3.apply(lambda x: x[0]).values, columns=['col1'])
col2df = pd.DataFrame(df3.apply(lambda x: x[1]).values,  columns=['col2'])
wantedDF3 = col1df.join(col2df)
0 голосов
/ 19 октября 2019

Это ответ на комментарии к первому ответу и касается вопроса ошибки памяти. В следующем примере используются данные, которые дают ошибку памяти на моем компьютере всеми способами, предложенными до сих пор (первый ответ и комментарии в 1-м ответе), но они работают с кодом ниже:

import pandas as pd
import numpy as np
import time
np.random.seed(1)

nRows = 25000
nCols = 10000
numberOfChunks = 5

df = pd.DataFrame(index=range(nRows ), columns=range(1))

df2 = df.apply(lambda row: np.random.rand(nCols), axis=1)

for start, stop in zip(np.arange(0, nRows , int(round(nRows/float(numberOfChunks)))), 
                       np.arange(int(round(nRows/float(numberOfChunks))), nRows +  int(round(nRows/float(numberOfChunks))), int(round(nRows/float(numberOfChunks))))):
    df2tmp = df2.iloc[start:stop]
    if start == 0:
        df3 = pd.DataFrame(df2tmp.tolist(), index=df2tmp.index).astype('float16')
        continue
    df3tmp =  pd.DataFrame(df2tmp.tolist(), index=df2tmp.index).astype('float16')
    df3 = pd.concat([df3, df3tmp])
...