Я новичок в Spark и Scala и хочу задать вам вопрос:
У меня есть поле города в моей базе данных (которое я уже загрузил в DataFrame) с этим шаблоном: "someLetters" + " - " + id + ')'.
Пример:
ABDCJ - 123456)
AGDFHBAZPF - 1234567890)
Размер поля не фиксирован, и id
здесь может быть целым числом от 6 до 10 цифр.Итак, что я хочу сделать, это извлечь это id
в новый столбец с именем city_id
.
Конкретно, я хочу начать с последнего символа цифры ')', игнорировать его и извлечьцелое число, пока я не найду пробел.Затем перерыв.
Я уже пытался сделать это, используя withColumn
или regex
или даже subString index
, но я запутался, поскольку они основаны на индексе, который я не могу использовать здесь.
Как я могу это исправить?