У нас есть очень большой файл CSV, который был импортирован как кадр данных dask.Я делаю небольшой пример, чтобы объяснить вопрос.
import dask.dataframe as dd
df = dd.read_csv("name and path of the file.csv")
df.head()
output
col1 | col2 | col3 | col4
22 | Nan | 23 | 56
12 | 54 | 22 | 36
48 | Nan | 2 | 45
76 | 32 | 13 | 6
23 | Nan | 43 | 8
67 | 54 | 56 | 64
16 | 32 | 32 | 6
3 | 54 | 64 | 8
67 | NaN | 23 | 64
Я хочу заменить значение col4
на col1
, если col4<col1
и col2
не NaN
Таким образом, результат должен быть
col1| col2 | col3 | col4
22 | Nan | 23 | 56
12 | 54 | 22 | 36
48 | Nan | 2 | 45
76 | 32 | 13 | 76
23 | Nan | 43 | 8
67 | 54 | 56 | 67
16 | 32 | 32 | 16
3 | 54 | 64 | 8
67 | NaN | 23 | 64
Я знаю, как это сделать на пандах:
condition= df[(df['col4'] < df['col1']) & (pd.notnull(df['col2']))].index
df.loc[condition,'col4'] = df.loc[condition, 'col1'].values