Как использовать пользовательский разделитель в методе pyspark sparkContext textFile - PullRequest
0 голосов
/ 14 февраля 2019

Я пытаюсь прочитать текстовый файл и разделить его на предложения с помощью спарка.Для этого мне нужно разделить файл на «.»вместо символов новой строки.Как я могу это сделать.

Следующая задача состоит в том, чтобы затем удалить '\ n', ',' и т. Д., Которые будут в тексте, чтобы очистить текст.

Я использую sparksession для создания контекста искры.

spark = SparkSession\
    .builder\
    .appName("PythonWordCount1")\
    .config("textinputformat.record.delimiter", ".")\ #This doesn't work
    .getOrCreate()
sc = spark.sparkContext
lineList = sc.textFile(filename)
ngramList = lineList.flatMap(lambda line: fn(line, N))
...