Как я могу выполнить операции на наборе кадров с циклом for? - PullRequest
1 голос
/ 03 апреля 2019

Это общая проблема, с которой я столкнулся, но я буду использовать набор данных Titanic в качестве примера. Чтобы учесть операции как на поезде, так и на испытательном комплексе, я объединил их:

combined = [train_df, test_df]

Я также упростил названия для каждого пассажира, так что теперь у каждого есть одна из 8 возможностей. Теперь и для train_df, и для test_df я хочу создать макеты для столбца «Заголовок», добавить их в рамки данных и удалить исходный столбец «Заголовок». Код, который я предложил:

for df in combined:
    df = pd.concat([df,pd.get_dummies(df.Title)],axis=1)
    df = df.drop('Title',axis=1)

Эти операции работают, когда я выполняю их вручную на одном кадре данных, но при запуске цикла for ничего не происходит. Чего мне не хватает?

1 Ответ

0 голосов
/ 03 апреля 2019

это не работает, потому что вы изменяете копию переменной в списке и никогда не назначаете ее обратно в список.

Например:

a = [0,1,2,3]
for i in a:
    i = i+1
a
>>> [0, 1, 2, 3]

вам нужен доступ к элементам списка:

 a = [0,1,2,3]
 for i in range(len(a)):
    a[i] = a[i]+1
 a
 >>> [1, 2, 3, 4]

или проще:

a = [0,1,2,3]
a = [i+1 for i in a]
a
>>> [1, 2, 3, 4]

Итак, в вашем случае:

for df in range(len(combined)):
    combined[df] = pd.concat([combined[df],pd.get_dummies(combined[df].Title)],axis=1)
    combined[df] = combined[df].drop('Title',axis=1)

или более простым способом (без индекса с использованием итераторов)

combined = [pd.concat([df,pd.get_dummies(df.Title)],axis=1).drop('Title',axis=1) for df in combined]

EDIT

Кажется, вы неправильно понимаете, как работает память в python и как вы будете обновлять переменные.

давайте возьмем a,b = 3,4 и l = [a,b], затем изменение a или b не изменит l. Созданный, он будет жить независимо от a и b. Так же как и вы? Отсюда тот факт, что обновление списка не приведет к обновлению переменной, используемой для его создания. Вы должны присвоить новое значение вашим переменным. Для этого, поскольку вы не хотите, чтобы список существовал после его использования, лучше всего сделать функцию:

def my_func(df):
    df = pd.concat([df,pd.get_dummies(df.Title)],axis=1)
    df = df.drop('Title',axis=1)
    return df

и затем вы применяете его к двум фреймам данных:

train_df = my_func(train_df) 
test_df= my_func(test_df) 

Второе редактирование :

Так почему же это сработало? Что ж, опять вопрос о том, как работает память в python и особенно в итераторах. Мы не будем вдаваться в подробности, но давайте возьмем пример со списком (аналогично кадру данных здесь):

a = [[0,1],[2,3,4]]
for i in a:
    i.pop(0)
a
>>> [[1], [3, 4]]

Вы видите, что мы изменили переменную внутри списка. Это потому, что мы не создавали именованную копию итератора. Мы изменили в памяти текущий объект. Так что использование Inplace=True делает именно это. Он напрямую изменяет фрейм данных, а не создает его копию.

...