Как узнать длину фрейма данных в dask? - PullRequest
0 голосов
/ 28 мая 2018

Как узнать длину кадра данных, используя dask?

Например, в пандах я могу сделать:

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"])
print df['A'].count()
print df

Вывод:

5
          A         B
0  1.538531  0.424717
1 -0.929843  1.323648
2 -1.283680  0.056199
3 -0.641035 -1.998241
4 -0.058598 -1.400637

В dask я пытаюсь:

import dask.dataframe as dd
df_dask = dd.from_pandas(df, npartitions=3)
print df_dask
print df_dask['A'].count()

Вывод:

                     A        B
npartitions=2                  
0              float64  float64
2                  ...      ...
4                  ...      ...
Dask Name: from_pandas, 2 tasks

dd.Scalar<series-..., dtype=int32>

Реальная причина, по которой мне нужна длина, заключается в том, что df_dask.sample () берет дробь, и я хочу сэмплировать указанное числозаписи из кадра данных.Я использую длину для вычисления этой доли.Есть ли более простой / быстрый способ сделать это?

1 Ответ

0 голосов
/ 28 мая 2018

Вы можете использовать len для длины dask DataFrame column или index:

print (len(df_dask['A']))
5

print (len(df_dask.index))
5

Ваше решение лучше, если нужно подсчитать все значения не NaN s - добавьте compute:

df = pd.DataFrame(np.random.normal(0, 1, (5, 2)), columns=["A", "B"])
df.loc[0, 'A'] = np.nan
print (df)
          A         B
0       NaN -1.727669
1 -0.390900  0.573806
2  0.338589 -0.011830
3  2.392365  0.412912
4  0.978736  2.238143

import dask.dataframe as dd
df_dask = dd.from_pandas(df, npartitions=3)

print (df_dask['A'].count().compute())
4
...