Я пытаюсь прочитать очень большой объем данных из файлов паркета s3 в мой экземпляр ноутбука SageMaker. Я не уверен, сколько данных слишком много, чтобы обрабатывать блокнот jupyter, поэтому, когда я пробую несколько файлов одновременно, предоставляя папку с несколькими паркетными файлами одновременно, ядро умирает. Можно ли продолжить, учитывая, что мне нужно загрузить еще больше данных для обучения моделей ML позже?
До сих пор я пробовал несколько различных методов, предложенных здесь, в StackOverflow, но, поскольку я чрезвычайно новичок в среде AWSэто было трудно разобраться самому. Прямо сейчас, я запускаю следующий код:
import s3fs
import pandas as pd
import boto3
import pyarrow.parquet as pq
# Creating an S3 Filesystem (Only required when using S3)
s3 = s3fs.S3FileSystem()
s3_path = "s3://my_bucket_name"
directory = 'path/to/folder'
print(f'{s3_path}/{directory}')
# Loading Files (S3)
data = pq.ParquetDataset(f'{s3_path}/{directory}', filesystem = s3, validate_schema=False).read_pandas().to_pandas()
У меня была куча ошибок при попытке прочитать паркетные файлы, подобные этим, но теперь, похоже, работает, когда я пытаюсь прочитать только один файл. Как мне поступить?