Amazon S3 Читать несколько файлов .gz с заголовком - PullRequest
0 голосов
/ 22 марта 2020

Я загрузил файл .csv (приблизительно 900 000 строк) на S3, используя Kinesis Firehose с форматом .gz. (Я должен был использовать это). После этого я попытался прочитать его в приложении Spark следующим образом:

val path = "s3a://my-bucket/data-from-stream/2020/03/*/*/*"
var df = spark.read
  .option("sep", ",")
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(path = path)

В корзине нет другого файла, кроме файлов .gz, отправленных Kinesis Firehose. Проблема в том, что приложение не может найти заголовок и заменяет любую строку заголовком. Вот так:

+-----------+-----------+-----------+
|7          |harry      |46         |
+-----------+-----------+-----------+
|          2|       john|         22|
|          5|       mary|         37|
+-----------+-----------+-----------+

Это должно быть:

+-----------+-----------+-----------+
|id         |name       |age        |
+-----------+-----------+-----------+
|          2|       john|         22|
|          5|       mary|         37|
+-----------+-----------+-----------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...