У меня есть CSV-файл из двух строковых столбцов (термин, код).Столбец кода имеет специальный формат [num]-[two_letters]-[text]
, где text
также может содержать тире -
.Я хочу прочитать этот файл, используя Spark, в массив данных ровно из четырех столбцов (term, num, two_letters, text).
Input
+---------------------------------+
| term | code |
+---------------------------------+
| term01 | 12-AB-some text |
| term02 | 130-CD-some-other-text |
+---------------------------------+
Output
+------------------------------------------+
| term | num | letters | text |
+------------------------------------------+
| term01 | 12 | AB | some text |
| term02 | 130 | CD | some-other-text |
+------------------------------------------+
Я могу разбить столбец code
на три столбца, когда нет тирев его text
части, но как мне найти решение, которое бы охватывало все случаи (например, получить весь текст после двух штрихов в одном столбце)?
Код для разделения столбца на три хорошо разъясненв ответе здесь