Question

Итак, я выяснил, как найти последний файл, используя python.Теперь мне интересно, смогу ли я найти последний файл с помощью pyspark.В настоящее время я указываю путь, но я хочу, чтобы pyspark получил последний измененный файл.

Текущий код выглядит следующим образом:

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

Заранее благодарен за помощь.

philantrovert · Answer 1 · 25 мая 2018

Я скопировал код, чтобы заставить API HDFS работать с PySpark из этого ответа: Pyspark: получить список файлов / каталогов по пути HDFS

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.s3.S3FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration

fs = # Create S3FileSystem object here

files = fs.listStatus(Path("Path://to/file"))

# You can also filter for directory here
file_status = [(file.getPath().toString(), file.getModificationTime()) for file in files]

file_status.sort(key = lambda tup: tup[1], reverse= True)

most_recently_updated = file_status[0][0]

spark.read.csv(most_recently_updated).option(...)

Найти последний файл pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Найти последний файл pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов