Я развернул dask на EMR, используя dask-yarn и предоставленный скрипт на веб-сайте dask .
Я пробую простые read
и take
для файла avro в моем s3, но получаюKillerWorker
исключение без четкого определения причины ошибки.
from dask_yarn import YarnCluster
cluster = YarnCluster(environment='environment.tar.gz',
worker_vcores=2,
worker_memory='4GB',
n_workers=4)
from dask.distributed import Client
from dask import bag as db
client = Client(cluster)
av = db.read_avro('s3://path/to/fil.avro')
av.take(1)
Исключение:
KilledWorker: ("('bag-from-delayed-read-avro-take-57f2529def40184e19b004eb8d459535', 0)", <Worker 'tcp://172.31.125.168:38215', memory: 0, processing: 1>)