Как заменить символ Ctrl + M из набора данных spark с помощью regexp_replace ()? - PullRequest
0 голосов
/ 10 июня 2019

У меня есть набор данных Spark, в одном из столбцов которого в данных столбца присутствует символ Ctrl+M, в результате чего запись разбивается на две записи, и происходит повреждение данных.
Несмотря на то, что я добавил код для обработки регулярного выражения новой строки \r\n, но я не уверен, что этот же код сможет обрабатывать Ctrl + M, т.е. ^M:

filtered = filtered.selectExpr(convertListToSeq(colsList))
              .withColumn(newCol, functions.when(filtered.col(column).notEqual("null"), functions.regexp_replace(filtered.col(column), "[\r\n]", " ")));

Будет ли работать код functions.regexp_replace(filtered.col(column), "<ascii for Ctrl+M>", " ");? ..Я не знаю значения ascii для Ctrl + M.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...