Question

У меня есть набор данных Spark, в одном из столбцов которого в данных столбца присутствует символ Ctrl+M, в результате чего запись разбивается на две записи, и происходит повреждение данных.
Несмотря на то, что я добавил код для обработки регулярного выражения новой строки \r\n, но я не уверен, что этот же код сможет обрабатывать Ctrl + M, т.е. ^M:

filtered = filtered.selectExpr(convertListToSeq(colsList))
              .withColumn(newCol, functions.when(filtered.col(column).notEqual("null"), functions.regexp_replace(filtered.col(column), "[\r\n]", " ")));

Будет ли работать код functions.regexp_replace(filtered.col(column), "<ascii for Ctrl+M>", " ");? ..Я не знаю значения ascii для Ctrl + M.

Как заменить символ Ctrl + M из набора данных spark с помощью regexp_replace ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как заменить символ Ctrl + M из набора данных spark с помощью regexp_replace ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов