input = spark.read.format ('com.databricks.spark.csv'). Option ("delimiter", "\ 001"). Option ("header", "true"). Option ("nullValue", "null") .load ("s3: // имя корзины / путь / к / data / myfile_2018_ ([0-9] *) .tab", схема = in_schema)
in_schema - вы можете передать свою собственную схему, если хотите, или удалить эту опцию.
Вы можете напрямую читать из папки выше, если вам нужны все файлы, присутствующие в папке, и schama такой же.
input = spark.read.format ('com.databricks.spark.csv'). Option ("delimiter", "\ 001"). Option ("header", "true"). Option ("nullValue", "null") .load ("s3: // имя_пакета / путь / к / данным /")