Привет, ребята. Я пытаюсь прочитать данные из корзины GCS, используя python код внутри Docker изображения. Это занимает неоправданно большое количество времени для 1,23 ГБ CSV-файла, и выполнение автоматически прекращается. Я прикрепляю файл Docker и код python.
FROM python:3.7.3
WORKDIR /Users/amansaurav/Downloads/xyz/data_process/
RUN pip3 install --upgrade pip
RUN pip3 install pandas --upgrade
RUN pip3 install sklearn
RUN pip3 install argparse
RUN pip3 install 'kfp' --quiet
RUN pip3 install pandas --upgrade
RUN pip3 install --upgrade oauth2client
RUN pip3 install gcsfs
RUN pip3 install https://storage.googleapis.com/ml-pipeline/release/0.1.20/kfp.tar.gz
RUN pip3 install "dask[complete]"
COPY . .
ENV GOOGLE_APPLICATION_CREDENTIALS /Users/amansaurav/Downloads/xyz/data_process/key.json
ENTRYPOINT ["python", "./dataprep.py", "--path", "gs://bucketName/", "--filename", "test.csv" ]
Python код:
file_path = os.path.join(path,filename)
print('file_path: '+ file_path)
fs = gcsfs.GCSFileSystem(project='projectName')
with fs.open(file_path) as f:
df = pd.read_csv(f)
print('done')
Код застрял в части чтения csv и контейнера убивается после большой загрузки процессора. Я также пытался сделать это с pandas, но результат тот же, контейнер убивается после высокой загрузки процессора:
df = pd.read_csv(file_path)
Я запускаю это в моем локальном docker env. Любые подсказки по этому вопросу будут полезны.
Редактировать 1 - Я также пробовал это с файлом размером 200 КБ, и это было успешно, но не удалось с размером файла 1,23 ГБ.