Как прочитать простой текстовый файл строки в pyspark? - PullRequest
0 голосов
/ 16 апреля 2020

У меня есть список строк, сохраненных в текстовом файле без заголовка, и я хотел открыть в блокноте pyspark блок данных и распечатать все строки.

abcdef 
vcdfgrs 
vcvdfrs 
vfdedsew 
kgsldkflfdlfd

text = sc.textFile("path.../filename.txt)
print(text.collect()) 

этот код не печатает строки. Я ценю вашу помощь.

1 Ответ

1 голос
/ 16 апреля 2020

Вот так

#define a function which takes line and print
def f(line):
    print(line)

#building the text file via list
my_list = [['my text line-1'],['line-2 text2 my2'],['some junk line-3']]

#create RDD via list (you have it via 
txt_file = sc.parallelize(my_list)

#use for each to call the function and print will work
txt_file.foreach(f)

#if you want each word via line, use flatmap

enter image description here

...