Regex Gone Wild - PullRequest
       5

Regex Gone Wild

0 голосов
/ 15 января 2019

Я использую набор данных Kaggle Titanic для извлечения заголовков из имен с помощью повторного импорта. Я получаю титульный матч в 80% - 90% случаев. От 10% до 20% времени он возвращает заголовок, которого нет в названии.

Я попытался изменить шаблон с '(\ S).' к '([a-zA-Z]).'

import re
combinedSet['Title'] = ''
for index, t in combinedSet.iterrows():
    # title_string = re.search(' (\S+)\.', t.Name).group(1)
    title_string = re.search(' ([A-Za-z]+)\.', t.Name).group(1)
    combinedSet.loc[index, 'Title'] = title_string
    title_string = ""

Если он не может совпадать, я ожидал бы нулевого возврата, но он иногда возвращает правильный заголовок из столбца Имя в Пандах. Тот факт, что мисс переходит к мистеру или миссис, сбивает с толку. Фрейм данных, если он очень чистый, соответствует шаблону

Имя образца из набора данных - Тодоров, мистер Лалио

Попытка шаблона регулярного выражения с моим регулярным выражением работает, как и ожидалось.

Мне интересно, если это проблема памяти Панд.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...