Question

Я делаю обратный denoisng autoencoder, и у меня есть набор данных, но все это в нижнем регистре, но я хочу, чтобы 80% строк исходной записи были прописными, а только 60% целевых записей - прописными. Я написал это

import pandas as pd
import torch

df = pd.read_csv('Data/fb_moe.csv')

for i in range(len(df)):
    sample = int(torch.distributions.Bernoulli(torch.FloatTensor([.8])).sample())

    if sample == 1:
        df.iloc[i].y = str(df.iloc[i].y).capitalize()

        sample_1 = int(torch.distributions.Bernoulli(torch.FloatTensor([.6])).sample())

        if sample_1 == 1:
            df.iloc[i].x = str(df.iloc[i].x).capitalize()

df.to_csv('Data/fb_moe2.csv')

Но это довольно медленно, потому что мой CSV похож на 8 миллионов строк, есть ли более быстрый способ сделать это?

Часть Dataframe

x,y
jon,jun
an,jun
ju,jun
jin,jun
nun,jun
un,jun
jon,jun
jin,jun
nen,jun
ju,jun
jn,jun
jul,jun
jen,jun
hun,jun
ju,jun
hun,jun
hun,jun
jon,jun
jin,jun
un,jun
eun,jun
jhn,jun

jcaliz · Answer 1 · 13 апреля 2020

Попробуйте добавить несколько логических масок и некоторые применяемые функции, pandas не работает быстро для циклов

n = len(df)
source = np.random.binomial(1, p=.8, size=n) ==  1
target = source.copy()

total_source_true = np.sum(source)
target[source] = np.random.binomial(1, p=.6, size=total_source_true) == 1

df.loc[source, 'x'] = df.loc[source, 'x'].str.capitalize()
df.loc[target, 'y'] = df.loc[source, 'y'].str.capitalize()

Используйте случайные строки в панде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используйте случайные строки в панде

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов