Как прочитать несколько файлов из AWS S3 в искровом фрейме? - PullRequest
0 голосов
/ 12 октября 2018

У меня есть набор файлов в корзине S3 с этим шаблоном

myfile_2018_(0).tab
myfile_2018_(1).tab
myfile_2018_(2).tab
..
myfile_2018_(150).tab

Я хотел бы создать один Spark Dataframe, прочитав все эти файлы.Как создать шаблон регулярного выражения и прочитать файлы?

Файлы имеют заголовки.Я использую Scala для достижения этой цели.

Ответы [ 2 ]

0 голосов
/ 31 октября 2018

input = spark.read.format ('com.databricks.spark.csv'). Option ("delimiter", "\ 001"). Option ("header", "true"). Option ("nullValue", "null") .load ("s3: // имя корзины / путь / к / data / myfile_2018_ ([0-9] *) .tab", схема = in_schema)

in_schema - вы можете передать свою собственную схему, если хотите, или удалить эту опцию.

Вы можете напрямую читать из папки выше, если вам нужны все файлы, присутствующие в папке, и schama такой же.

input = spark.read.format ('com.databricks.spark.csv'). Option ("delimiter", "\ 001"). Option ("header", "true"). Option ("nullValue", "null") .load ("s3: // имя_пакета / путь / к / данным /")

0 голосов
/ 13 октября 2018

Просто укажите шаблон глобуса, как показано ниже (предполагается, что они находятся в одной папке):

val input = spark.read.option("header", true).csv("/path/to/data/myfile_2018_([0-9]*).tab")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...