У меня есть набор данных в необработанном текстовом файле (это файл журнала), я готовлю список python, используя это текстовое чтение файла построчно, с этим списком я создам кадр данных, используя pyspark. Если вы видите набор данных, некоторыев соответствующем столбце отсутствуют значения, я хочу заполнить его "NA". Это образец набора данных, отсутствующее значение может быть в любом столбце, столбцы разделены пробелами
==============================================
empcode Emnname Date DESC
12d sf 2018-02-06 dghsjf
asf2 asdfw2 2018-02-16 fsfsfg
dsf21 sdf2 2016-02-06 sdgfsgf
sdgg dsds dkfd-sffddfdf aaaa
dfd gfg dfsdffd aaaa
df dfdf efef
4fr freff
----------------------------------------------
MyCode:
path="something/demo.txt"
EndStr="----------------------------------------------"
FilterStr="=============================================="
findStr="empcode Emnname"
def PrepareList(findStr):
with open(path) as f:
out=[]
for line in f:
if line.rstrip()==Findstr:
#print(line)
tmp=[]
tmp.append(re.sub("\s+",",",line.strip()))
#print(tmp)
for line in f:
if line.rstrip()==EndStr:
out.append(tmp)
break
tmp.append(re.sub("\s+",",",line.strip()))
return (tmp)
f.close()
LstEmp=[]
LstEmp=prepareDataset("empcode Emnname Dept DESC")
print(LstEmp)
Мой вывод:
['empcode,Emnname,Date,DESC',
'12d,sf,2018-02-06,dghsjf',
'asf2,asdfw2,2018-02-16,fsfsfg',
'dsf21,sdf2,2016-02-06,sdgfsgf',
'sdgg,dsds,dkfd-sffddfdf,aaaa',
'dfd,gfg,dfsdffd,aaaa',
'df,dfdf,efef',
'4fr,freff']
Ожидаемый вывод:
['empcode,Emnname,Date,DESC',
'12d,sf,2018-02-06,dghsjf',
'asf2,asdfw2,2018-02-16,fsfsfg',
'dsf21,sdf2,2016-02-06,sdgfsgf',
'sdgg,dsds,dkfd-sffddfdf,aaaa',
'dfd,gfg,dfsdffd,aaaa',
'df,NA,dfdf,efef',
'4fr,NA,NA,freff']