Как удалить указанный c символ из строки в pyspark? - PullRequest
0 голосов
/ 23 марта 2020

Я пытаюсь удалить указанный символ c из строки, но не могу найти правильного решения. Не могли бы вы помочь мне, как это сделать?

Я загружаю данные в dataframe с помощью pyspark. Один из столбцов с дополнительным символом, который я хочу удалить.

Пример:

|"\""warfarin was discontinued 3 days ago and xarelto was started when the INR was 2.7, and now the INR is 5.8, should Xarelto be continued or stopped?"|

Но в результате я хочу только:

|"warfarin was discontinued 3 days ago and xarelto was started when the INR was 2.7, and now the INR is 5.8, should Xarelto be continued or stopped?"|

Я использую код ниже для записи фрейма данных в файл:

df.repartition(1).write.format('com.databricks.spark.csv').mode('overwrite').save(output_path, escape='\"', sep='|',header='True',nullValue=None)

Ответы [ 2 ]

0 голосов
/ 23 марта 2020

Вы можете использовать некоторые другие escape-символы вместо '\', вы можете изменить это на что-нибудь еще. Если у вас есть возможность сохранить файл в любом другом формате, предпочитайте паркет (или c) над CSV.

0 голосов
/ 23 марта 2020

Попробуйте следующее, чтобы убрать пунктуацию с начала вашей строки

from string import punctuation
mystring = """\""warfarin was discontinued 3 days ago and xarelto was started when the INR was 2.7, and now the INR is 5.8, should Xarelto be continued or stopped?"""
print(mystring.lstrip(punctuation))

output:

'warfarin was discontinued 3 days ago and xarelto was started when the INR was 2.7, and now the INR is 5.8, should Xarelto be continued or stopped?'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...