Вот, пожалуйста!
Вы можете проанализировать ваш простой файл Mainframe в определенной позиции и сделать его разделителем как csv.
import csv
PlainTextfile = 'InputFilePathLocation\Input_File.txt'
CSV_OutputFile = 'OutputFilePathLocation\Output_File.txt'
cols = [(0,2),(3,8),(8,10),(11,17),(17,22),(22,24)]
with open(PlainTextfile,'r') as fin, open(CSV_OutputFile, 'wt') as fout:
writer = csv.writer(fout, delimiter=",", lineterminator="\n")
for line in fin:
line = line.rstrip() # removing the '\n' and other trailing whitespaces
data = [line[c[0]:c[1]] for c in cols]
print("data:",data)
writer.writerow(data)
Ваш выходной файл становится теперь:
My,name ,is,Chris , age ,45
My,name ,is,Denni , age ,46
My,name ,is,Vicki , age ,47
My,name ,is,Denni , age ,51
My,name ,is,Chris , age ,52
и затем вы можете загрузить этот csv-файл с разделителями в dataframe или RDD и использовать операцию фильтрации, чтобы разделить его на разные фреймы данных или записать в разные csv-файлы с помощью метода класса Writer. Дайте мне знать, если вам понадобится дополнительная информация по этому вопросу.