Я читаю данные, используя это: ddf1 = dd.read_sql_table('mytable', conn_string, index_col='id', npartitions=8)
Конечно, это происходит мгновенно из-за ленивых вычислений. Эта таблица имеет несколько сотен миллионов строк.
Далее я хочу отфильтровать этот кадр данных Dask:
ddf2 = ddf1.query('some_col == "converted"')
Наконец, я хочу преобразовать это в Pandas датафрейм. Результат должен составлять всего около 8000 строк:
ddf3 = ddf2.compute()
Однако это занимает очень много времени (~ 1 час). Могу ли я получить какой-либо совет о том, как существенно ускорить это? Я попытался использовать .compute(scheduler='threads')
, изменив количество разделов, но пока ни один не работал. Что я делаю не так?