Эксперты, у меня есть простое требование, но я не могу найти функцию для достижения цели.
Я использую pyspark (spark 1.6 и Python 2.7) и у меня есть простой столбец pyspark dataframe с определенными значениями, такими как-
1849adb0-gfhe6543-bduyre763ryi-hjdsgf87qwefdb-78a9f4811265_ABC
1849adb0-rdty4545y4-657u5h556-zsdcafdqwddqdas-78a9f4811265_1234
1849adb0-89o8iulk89o89-89876h5-432rebm787rrer-78a9f4811265_12345678
Общим в этих значениях является то, что есть одно «подчеркивание», и после этого есть определенные символы (может быть любым количеством символов). Это те персонажи, которые мне интересны в выводе. Я хочу использовать функцию подстроки или регулярных выражений, которая найдет позицию «подчеркивания» в значениях столбца и выберет «от позиции подчеркивания +1» до конца значения столбца. Таким образом, выходные данные будут выглядеть как информационный кадр со значениями как -
ABC
1234
12345678
Я попытался использовать подстроку, но смог найти что-нибудь, чтобы "проиндексировать" "подчеркивание"
Спасибо!