Я унаследовал проект, используя Dask Dataframe для создания кадра данных.
from dask import dataframe as dd
# leaving out param values for brevity
df = dd.read_csv(
's3://some-bucket/*.csv.gz',
sep=delimiter,
header=header,
names=partition_column_names,
compression=table_compression,
encoding='utf-8',
error_bad_lines=False,
warn_bad_lines=True,
parse_dates=date_columns,
dtype=column_dtype,
blocksize=None,
)
df_len = len(df)
# more stuff
Я беру этот Dataframe, обрабатываю его и превращаю в Parquet.
Процесс работает нормально, но иногда (все еще не определили шаблон), процесс просто зависает на len(df)
. Нет ошибок, нет выхода, ничего.
Существует ли в Dask Dataframes какая-либо концепция, предусматривающая тайм-аут для операции Dataframe? Возможно, есть возможность включить отладку, чтобы лучше понять, что происходит?