Список кортежей для хранения на фрейме данных pyspark - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть несколько сотен текстовых файлов, которые я читаю в виде списка кортежей ниже.

file_1= [(),(),(),(),()...]
file_2= [(),(),(),(),()...]
.
.
.
file_n= [(),(),(),(),()...]

Теперь я хочу добавить их в фрейм данных pyspark, как показано ниже

+------+------------------------+
|file_1 |     [(),(),(),(),()...]|
|file_2 |     [(),(),(),(),()...]| 
 .
 .
 .
|file_n |     [(),(),(),(),()...]|
+------+------------------------+

Как Могу ли я достичь этого или если есть еще лучший способ сделать это.

1 Ответ

0 голосов
/ 18 февраля 2020

если содержимое вашего текстового файла выглядит следующим образом file_1 = [(), (), (), (), () ...]

И, если вы используете искру 2 можно использовать CSV для преобразования его во фрейм данных:

df = spark.read.csv("file path", sep = " = ")
...