Я конвертирую pandas
в dask
, основная проблема на данный момент заключается в сортировке.
Для преобразования простых сортировок я использую nlargest
для сложной сортировки, например:
df = df.sort_values(
by=['column_1', 'column_2', 'column_3', 'column_4', 'column_5', 'column_6', 'column_7'],
ascending=[1, 0, 0, 0, 0, 0, 0]
)
Я перевожу в панд, а затем обратно в сумрак: dd.from_pandas
для этого:
ar = ar.sort_values(by=['column_1', 'column_2'], ascending=[1, 0])
Я не знаю, что делать
Я предполагаю, что преобразование в панд и обратно в сумрак замедляет вещи (даже не подозревая, насколько это ужасно)
Может ли nlargest
справиться с этим? Я не вижу, как сделать один столбец по убыванию, а другой по возрастанию.