Если вы используете from_delayed
, то вы можете создать функцию, которая предварительно обрабатывает каждый из ваших входных файлов так же, как вы можете sh. Это совершенно произвольно, поэтому вы можете решить проблему, используя собственный код или любой пакет, который вы хотите установить в кластере.
@dask.delayed
def read_a_file(filename):
df = pd.read_csv(filename). # or remote file
do_something_with_columns
return df_out
df = dd.from_delayed([read_a_file(f) for f in filenames], meta=...)