Возможно, вы хотите использовать функциональность Spark SQL
/ DataFrame
.Эти API предоставляют преобразования, подобные SQL, которые обеспечат вам более высокую производительность, чем API более низкого уровня RDD
.MLib
- это компонент машинного обучения Spark, который вам не нужен для выполнения операций ETL, только если вы обучаете новую модель ML.
Вам следует начать с чтения.Во-первых, я бы начал с общей документации по искрам.Это даст вам представление о том, как вы поступаете с данными в свою работу Spark и взаимодействуете с ней.
Быстрый старт Spark
Затем я прочитал об EMR.В частности, о том, как создать кластер и как получить доступ к оболочке искры:
Создание кластера EMR с помощью Spark
Доступ к оболочке Spark в кластере EMR
Как только вы окажетесь в оболочке искры, вы сможете загружать данные из S3 так же, как из HDFS.Для простых текстовых файлов, например, вы можете просто сделать (при условии pyspark):
df = spark.read.text("s3://some-bucket/path/to/files/")