У меня есть датафрейм "movies" со столбцом "title", который содержит названия фильмов и год их выпуска в следующем формате:
The Pirates (2014)
Я тестируюразличные способы извлечения только части заголовка, которая в приведенном выше примере будет «Пираты», в новый столбец.
Я использовал pandas Series.str.extract () и нашел шаблон регулярного выражения, который работает,но я не уверен, почему это работает.
movies['title_only'] = movies['title'].str.extract('(.*)[\s]', expand=True)
Приведенный выше код правильно извлекает «Пираты» в новый столбец, но почему он не извлекает только «The» (все до первогопробельные)