Невозможно прочитать данные из корзины GCS, используя python внутри Docker - PullRequest
0 голосов
/ 05 февраля 2020

Привет, ребята. Я пытаюсь прочитать данные из корзины GCS, используя python код внутри Docker изображения. Это занимает неоправданно большое количество времени для 1,23 ГБ CSV-файла, и выполнение автоматически прекращается. Я прикрепляю файл Docker и код python.

FROM python:3.7.3

WORKDIR /Users/amansaurav/Downloads/xyz/data_process/
RUN pip3 install --upgrade pip
RUN pip3 install pandas --upgrade
RUN pip3 install sklearn
RUN pip3 install argparse
RUN pip3 install 'kfp' --quiet
RUN pip3 install pandas --upgrade
RUN pip3 install --upgrade oauth2client
RUN pip3 install gcsfs
RUN pip3 install https://storage.googleapis.com/ml-pipeline/release/0.1.20/kfp.tar.gz
RUN pip3 install "dask[complete]"

COPY . .
ENV GOOGLE_APPLICATION_CREDENTIALS /Users/amansaurav/Downloads/xyz/data_process/key.json
ENTRYPOINT ["python", "./dataprep.py", "--path", "gs://bucketName/", "--filename", "test.csv" ]

Python код:

file_path = os.path.join(path,filename)
print('file_path: '+ file_path)

fs = gcsfs.GCSFileSystem(project='projectName')
with fs.open(file_path) as f:
    df = pd.read_csv(f)
print('done')

Код застрял в части чтения csv и контейнера убивается после большой загрузки процессора. Я также пытался сделать это с pandas, но результат тот же, контейнер убивается после высокой загрузки процессора:

df = pd.read_csv(file_path)

Я запускаю это в моем локальном docker env. Любые подсказки по этому вопросу будут полезны.

Редактировать 1 - Я также пробовал это с файлом размером 200 КБ, и это было успешно, но не удалось с размером файла 1,23 ГБ.

...