Я новичок в pyspark ...
У меня есть большой файл журнала, который содержит данные, как показано ниже:
sfdfd
fsdfsdffdhfgjgfjkyklhljk, erygrt, tegtyryu,.
sgsgggggfsdf
==========================================
Roll Name class
==========================================
1 avb wer21g2
------------------------------------------
===========================================
empcode Emnname Dept Address
===========================================
12d sf sdf22 dghsjf
asf2 asdfw2 df21df fsfsfg
dsf21 sdf2 df2 sdgfsgf
-------------------------------------------
Теперь я хочу разделить этот файл на несколько RDD / Dataframe, используя Spark и python (Pyspark). Я могу сделать это в Scala, используя APIHadoopFile, Теперь я хочу сделать это в Pyspark. Может ли кто-нибудь помочь мне в этом.
Ускоренный вывод:
Roll Name clas
1 avb wer21g2
empcode Emnname Dept Address
12d sf sdf22 dghsjf
asf2 asdfw2 df21df fsfsfg
dsf21 sdf2 df2 sdgfsgf
Это код, который я пробовал:
with open(path) as f:
out = []
for line in f:
if line.rstrip() == findStr:
tmp = []
tmp.append(line)
for line in f:
# print(line)
if line.rstrip() == EndStr:
out.append(tmp)
break
tmp.append(line)
f.close()
SMN_df = spark.createDataFrame(tmp, StringType()).show(truncate=False)
Я могу создать фрейм данных, но не получаю ожидаемого вывода. Может ли кто-нибудь мне помочь.
для получения более подробной информации, смотрите прикрепленный скриншот.
Набор данных