Я работаю с фреймом данных, который содержит буквы, специальные символы и цифры. Моя цель - извлечь все буквы и первую ди git. Все цифры всегда идут в конце после букв и специальных символов; однако некоторые буквы могут появляться после специальных символов. См. Пример ниже:
d = {'col1': ['A./B. 1234', 'CDEF/G5.','AB./C23']}
df = pd.DataFrame(data=d)
print(df)
# col1
# 0 A./B. 1234
# 1 CDEF/G5.
# 2 AB./C23
Я просмотрел много вариантов, но не знаю, как обрабатывать специальные символы ./
и подобные.
df.col1.str.extract('([A-Za-z\d]+)')
# 0
# 0 A
# 1 CDEF
# 2 AB
Это дает мне все буквы и цифры, пока не дойдет до специального символа. В конце концов я хотел бы получить следующий результат:
AB1
CDEFG5
ABC2
Я новичок в регулярных выражениях.