Отладка, почему операция Dask Dataframe ничего не делает - PullRequest
1 голос
/ 27 марта 2020

Я унаследовал проект, используя Dask Dataframe для создания кадра данных.

from dask import dataframe as dd

# leaving out param values for brevity

df = dd.read_csv(
    's3://some-bucket/*.csv.gz',
    sep=delimiter,
    header=header,
    names=partition_column_names,
    compression=table_compression,
    encoding='utf-8',
    error_bad_lines=False,
    warn_bad_lines=True,
    parse_dates=date_columns,
    dtype=column_dtype,
    blocksize=None,
)

df_len = len(df)

# more stuff

Я беру этот Dataframe, обрабатываю его и превращаю в Parquet.

Процесс работает нормально, но иногда (все еще не определили шаблон), процесс просто зависает на len(df). Нет ошибок, нет выхода, ничего.

Существует ли в Dask Dataframes какая-либо концепция, предусматривающая тайм-аут для операции Dataframe? Возможно, есть возможность включить отладку, чтобы лучше понять, что происходит?

1 Ответ

1 голос
/ 27 марта 2020

Диагностическая панель предоставляет больше информации здесь. https://docs.dask.org/en/latest/diagnostics-distributed.html содержит самую богатую информацию, но локальные планировщики также предоставляют некоторую информацию (https://docs.dask.org/en/latest/diagnostics-local.html).

...