У меня есть набор данных Spark, в одном из столбцов которого в данных столбца присутствует символ Ctrl+M
, в результате чего запись разбивается на две записи, и происходит повреждение данных.
Несмотря на то, что я добавил код для обработки регулярного выражения новой строки \r\n
, но я не уверен, что этот же код сможет обрабатывать Ctrl + M, т.е. ^M
:
filtered = filtered.selectExpr(convertListToSeq(colsList))
.withColumn(newCol, functions.when(filtered.col(column).notEqual("null"), functions.regexp_replace(filtered.col(column), "[\r\n]", " ")));
Будет ли работать код functions.regexp_replace(filtered.col(column), "<ascii for Ctrl+M>", " ");
? ..Я не знаю значения ascii для Ctrl + M.