Question

У меня есть несколько сотен текстовых файлов, которые я читаю в виде списка кортежей ниже.

file_1= [(),(),(),(),()...]
file_2= [(),(),(),(),()...]
.
.
.
file_n= [(),(),(),(),()...]

Теперь я хочу добавить их в фрейм данных pyspark, как показано ниже

+------+------------------------+
|file_1 |     [(),(),(),(),()...]|
|file_2 |     [(),(),(),(),()...]| 
 .
 .
 .
|file_n |     [(),(),(),(),()...]|
+------+------------------------+

Как Могу ли я достичь этого или если есть еще лучший способ сделать это.

Sri_Karthik · Answer 1 · 18 февраля 2020

если содержимое вашего текстового файла выглядит следующим образом file_1 = [(), (), (), (), () ...]

И, если вы используете искру 2 можно использовать CSV для преобразования его во фрейм данных:

df = spark.read.csv("file path", sep = " = ")

Список кортежей для хранения на фрейме данных pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Список кортежей для хранения на фрейме данных pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы