Я пытаюсь прочитать текстовый файл и разделить его на предложения с помощью спарка.Для этого мне нужно разделить файл на «.»вместо символов новой строки.Как я могу это сделать.
Следующая задача состоит в том, чтобы затем удалить '\ n', ',' и т. Д., Которые будут в тексте, чтобы очистить текст.
Я использую sparksession для создания контекста искры.
spark = SparkSession\
.builder\
.appName("PythonWordCount1")\
.config("textinputformat.record.delimiter", ".")\ #This doesn't work
.getOrCreate()
sc = spark.sparkContext
lineList = sc.textFile(filename)
ngramList = lineList.flatMap(lambda line: fn(line, N))