Загрузить из PyArrow HadoopFileSystem в S3 с помощью boto - PullRequest
0 голосов
/ 06 мая 2020

У меня есть объект HadoopFileSystem и несколько файлов в этой системе. Я хотел бы загрузить их в S3 напрямую, не загружая файлы в локальную файловую систему. Это возможно? Обычно я получаю объект корзины через s3 = boto.resource(), а затем bucket = s3.Bucket() и вызываю bucket.upload_file, но upload_file принимает путь к файлу в локальной файловой системе. У Boto также есть функция upload_fileobj(), которая принимает файловый объект, который должен иметь метод чтения и возвращать байты. Можно ли использовать эту функцию? Похоже, что функция open_input_stream() в pyarrow.fs.HadoopFileSystem может быть правильным интерфейсом, но я не уверен, лучший ли это способ или эффективен.

...