Я пытаюсь прочитать заголовочные файлы и соответствующие csv
из каталога, в то время как запись CSV в pyspark dataframe
выдает ошибку
ParseException: u "\ nextraneous input '/' Ожидающий {'SELECT', 'FROM',
«ДОБАВИТЬ», IDENTIFIER, BACKQUOTED_IDENTIFIER} (строка 1, позиция 0) \ n \ n == SQL
== \ п / настойчивые / 4G / filtered_week1 / cell_res \ п ^^^ \ п "
Мой кусок кода прилагается здесь:
Пожалуйста, дайте мне знать, если я здесь что-то не так делаю`
from pyspark.sql import SparkSession
conf = spark.sparkContext._conf.setAll([('spark.executor.memory', '8g'),
('spark.executor.cores', '2'),
('spark.cores.max', '10'),
('spark.driver.memory','8g')])
spark = SparkSession.builder\
.config(conf=conf)\
.appName("Mergecsv mbnl")\
.getOrCreate()
indir="/persistent/4G/filtered_week1/"
#outfile = "/persistent/4G/week1_15Feb/Untitled Folder"
csv_seperator=','
header= glob.glob(indir + "/*.header")
all_files = glob.glob(indir+ "/*.csv")
for filename in all_files:
for head in header:
x= head.split('.sql')[0]
if x in filename:
df1=spark.read.format("csv").option("header", "false").schema(x).load(filename)
df1.take(1)`