Я загрузил файл .csv (приблизительно 900 000 строк) на S3, используя Kinesis Firehose с форматом .gz. (Я должен был использовать это). После этого я попытался прочитать его в приложении Spark следующим образом:
val path = "s3a://my-bucket/data-from-stream/2020/03/*/*/*"
var df = spark.read
.option("sep", ",")
.option("header", "true")
.option("inferSchema", "true")
.csv(path = path)
В корзине нет другого файла, кроме файлов .gz, отправленных Kinesis Firehose. Проблема в том, что приложение не может найти заголовок и заменяет любую строку заголовком. Вот так:
+-----------+-----------+-----------+
|7 |harry |46 |
+-----------+-----------+-----------+
| 2| john| 22|
| 5| mary| 37|
+-----------+-----------+-----------+
Это должно быть:
+-----------+-----------+-----------+
|id |name |age |
+-----------+-----------+-----------+
| 2| john| 22|
| 5| mary| 37|
+-----------+-----------+-----------+