Как узнать длину кадра данных, используя dask?
Например, в пандах я могу сделать:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"])
print df['A'].count()
print df
Вывод:
5
A B
0 1.538531 0.424717
1 -0.929843 1.323648
2 -1.283680 0.056199
3 -0.641035 -1.998241
4 -0.058598 -1.400637
В dask я пытаюсь:
import dask.dataframe as dd
df_dask = dd.from_pandas(df, npartitions=3)
print df_dask
print df_dask['A'].count()
Вывод:
A B
npartitions=2
0 float64 float64
2 ... ...
4 ... ...
Dask Name: from_pandas, 2 tasks
dd.Scalar<series-..., dtype=int32>
Реальная причина, по которой мне нужна длина, заключается в том, что df_dask.sample () берет дробь, и я хочу сэмплировать указанное числозаписи из кадра данных.Я использую длину для вычисления этой доли.Есть ли более простой / быстрый способ сделать это?