Я пытаюсь понять шаблоны использования Dask на локальной машине.
В частности,
- У меня есть набор данных, который помещается в памяти
- IЯ хотел бы сделать некоторые операции с пандами
- groupby ...
- разбор даты
- и т. д.
Пандывыполняет эти операции через одно ядро, и эти операции занимают у меня часы.У меня 8 ядер на моей машине, и поэтому я хотел бы использовать Dask для максимально возможного распараллеливания этих операций.
У меня следующий вопрос: в чем разница между этими двумя способами?это в Dask:
import pandas as pd
from sklearn.datasets import load_iris
iris = load_iris()
(1)
import dask.dataframe as dd
df = dd.from_pandas(
pd.DataFrame(iris.data, columns=iris.feature_names),
npartitions=2
)
df.mean().compute()
(2)
import dask.dataframe as dd
from distributed import Client
client = Client()
df = client.persist(
dd.from_pandas(
pd.DataFrame(iris.data, columns=iris.feature_names),
npartitions=2
)
)
df.mean().compute()
В чем преимущество одного шаблона использования над другим?Почему я должен использовать один над другим?