у меня есть несколько Csv, которые все переменные ra, как это:
cloudiness.csv
+---+---+----------+-------------------+
|_c0| ID|cloudiness| datetime|
+---+---+----------+-------------------+
| 0| 3| 1.0|2013-11-08 00:00:00|
| 1|303| 2.0|2013-11-08 00:00:00|
| 2|306| 3.0|2013-11-08 00:00:00|
температура.csv
+---+---+-----------+-------------------+
|_c0| ID|temperature| datetime|
+---+---+-----------+-------------------+
| 0| 3| 3.0|2013-11-08 00:00:00|
| 1|303| 4.0|2013-11-08 00:00:00|
| 2|306| 5.0|2013-11-08 00:00:00|
.. и так далее,(7 o 8 o этих файлов).
Я должен объединить их в один только DataFrame с использованием Spark (R, Python или Scala) следующим образом:
+---+---+-----------+----------+-------------------+
|_c0| ID|temperature|cloudiness| datetime|
+---+---+-----------+----------+-------------------+
| 0| 3| 3.0| 1.0|2013-11-08 00:00:00|
| 1|303| 4.0| 2.0|2013-11-08 00:00:00|
| 2|306| 5.0| 3.0|2013-11-08 00:00:00|
Я пытался spark.read но это занимает слишком много времени, файлы по 3 ГБ каждый.Какой лучший способ сделать это?