Question

Я пытаюсь прочитать очень большой объем данных из файлов паркета s3 в мой экземпляр ноутбука SageMaker. Я не уверен, сколько данных слишком много, чтобы обрабатывать блокнот jupyter, поэтому, когда я пробую несколько файлов одновременно, предоставляя папку с несколькими паркетными файлами одновременно, ядро умирает. Можно ли продолжить, учитывая, что мне нужно загрузить еще больше данных для обучения моделей ML позже?

До сих пор я пробовал несколько различных методов, предложенных здесь, в StackOverflow, но, поскольку я чрезвычайно новичок в среде AWSэто было трудно разобраться самому. Прямо сейчас, я запускаю следующий код:


import s3fs
import pandas as pd
import boto3
import pyarrow.parquet as pq

# Creating an S3 Filesystem (Only required when using S3)

s3 = s3fs.S3FileSystem()
s3_path = "s3://my_bucket_name"
directory = 'path/to/folder'
print(f'{s3_path}/{directory}')

# Loading Files (S3)

data = pq.ParquetDataset(f'{s3_path}/{directory}', filesystem = s3, validate_schema=False).read_pandas().to_pandas()

У меня была куча ошибок при попытке прочитать паркетные файлы, подобные этим, но теперь, похоже, работает, когда я пытаюсь прочитать только один файл. Как мне поступить?

Ядро Jupyter умирает при чтении файлов паркета из нескольких папок в Sagemaker

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Ядро Jupyter умирает при чтении файлов паркета из нескольких папок в Sagemaker

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы