У меня есть текстовый файл с названием штатов и университетов. Я прочитал его в dataframe с помощью pandas.read_table (). Затем я выполняю его с помощью iterrows (), и по каждому пункту я хотел бы получить только штат и университет. Состояния могут быть обнаружены с помощью суффикса [edit]. Затем университеты следуют в других строках, пока не появится следующий штат. Что означает другое имя, за которым следует «[править]». Вид информационного кадра показан ниже:

Как показано, Алабама в строке 0 является государством. Университеты в рядах с 1 по 8 принадлежат Алабаме, пока не появится строка 9, которая является другим штатом. Ряд 10 принадлежит государству в ряду 9, Аляска. Весь фрейм данных имеет такую структуру. Я пытаюсь очистить его и вернуть еще один фрейм данных с такой структурой: один столбец с именами штатов и университетов вместе, но без частей после [] и (). Тогда это будет выглядеть следующим образом:
Alabama
Auburn
Флоренция
Джексонвилл
У некоторых записей есть "." или пробел в их именах. Я написал следующее регулярное выражение, чтобы получить их, но в результате я получаю «edit», «Auburn University» и т.д. Другими словами, он возвращает все, что соответствует, а не только первую часть.
Код выглядит следующим образом: я прочитал текстовый файл в фрейм данных с именем df_university_town. Затем я применил регулярное выражение следующим образом:
import re
pattern = re.compile(r'([a-zA-Z]+[\.\s]?[a-zA-Z]+)(\w?)')
for key, item in df_university_town.iteritems():
matches = pattern.finditer(str(item))
for match in matches:
print(match.group(1))
И вот результат, который я получаю:

Как видите, «редактировать» и «Обернский университет» в конечном результате являются дополнительными. Я использовал другой подход и попробовал match (), но это также не помогло. В основном, когда я достигаю «[» или «(», поиск не должен продолжаться. Я не знаю, что еще мне нужно сделать. Я ценю любую помощь или предложения.
Большое спасибо за вашу помощь и время, которое вы уделяете этому.