Я использую набор данных Kaggle Titanic для извлечения заголовков из имен с помощью повторного импорта. Я получаю титульный матч в 80% - 90% случаев. От 10% до 20% времени он возвращает заголовок, которого нет в названии.
Я попытался изменить шаблон с '(\ S).' к '([a-zA-Z]).'
import re
combinedSet['Title'] = ''
for index, t in combinedSet.iterrows():
# title_string = re.search(' (\S+)\.', t.Name).group(1)
title_string = re.search(' ([A-Za-z]+)\.', t.Name).group(1)
combinedSet.loc[index, 'Title'] = title_string
title_string = ""
Если он не может совпадать, я ожидал бы нулевого возврата, но он иногда возвращает правильный заголовок из столбца Имя в Пандах. Тот факт, что мисс переходит к мистеру или миссис, сбивает с толку. Фрейм данных, если он очень чистый, соответствует шаблону
Имя образца из набора данных - Тодоров, мистер Лалио
Попытка шаблона регулярного выражения с моим регулярным выражением работает, как и ожидалось.
Мне интересно, если это проблема памяти Панд.