Импорт нескольких CSV в DataFrame с разными заголовками в Spark - PullRequest
0 голосов
/ 02 октября 2018

у меня есть несколько Csv, которые все переменные ra, как это:

cloudiness.csv

    +---+---+----------+-------------------+
    |_c0| ID|cloudiness|           datetime|
    +---+---+----------+-------------------+
    |  0|  3|       1.0|2013-11-08 00:00:00|
    |  1|303|       2.0|2013-11-08 00:00:00|
    |  2|306|       3.0|2013-11-08 00:00:00|

температура.csv

    +---+---+-----------+-------------------+
    |_c0| ID|temperature|           datetime|
    +---+---+-----------+-------------------+
    |  0|  3|        3.0|2013-11-08 00:00:00|
    |  1|303|        4.0|2013-11-08 00:00:00|
    |  2|306|        5.0|2013-11-08 00:00:00|

.. и так далее,(7 o 8 o этих файлов).

Я должен объединить их в один только DataFrame с использованием Spark (R, Python или Scala) следующим образом:

    +---+---+-----------+----------+-------------------+
    |_c0| ID|temperature|cloudiness|           datetime|
    +---+---+-----------+----------+-------------------+
    |  0|  3|        3.0|       1.0|2013-11-08 00:00:00|
    |  1|303|        4.0|       2.0|2013-11-08 00:00:00|
    |  2|306|        5.0|       3.0|2013-11-08 00:00:00|

Я пытался spark.read но это занимает слишком много времени, файлы по 3 ГБ каждый.Какой лучший способ сделать это?

1 Ответ

0 голосов
/ 03 октября 2018

Стандартным способом является объединение фреймов данных.

при чтении файлов CSV с использованием приведенного ниже фрагмента

val read_csv1 = sc.textFile («Путь HDFS для чтения файла»)

Будет создан RDD, и вы сможете присоединиться к другим CSV.Если вы упомянули о проблеме производительности, значит.позвольте мне дать вам другой способ.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...