Question

Я использую набор данных Kaggle Titanic для извлечения заголовков из имен с помощью повторного импорта. Я получаю титульный матч в 80% - 90% случаев. От 10% до 20% времени он возвращает заголовок, которого нет в названии.

Я попытался изменить шаблон с '(\ S).' к '([a-zA-Z]).'

import re
combinedSet['Title'] = ''
for index, t in combinedSet.iterrows():
    # title_string = re.search(' (\S+)\.', t.Name).group(1)
    title_string = re.search(' ([A-Za-z]+)\.', t.Name).group(1)
    combinedSet.loc[index, 'Title'] = title_string
    title_string = ""

Если он не может совпадать, я ожидал бы нулевого возврата, но он иногда возвращает правильный заголовок из столбца Имя в Пандах. Тот факт, что мисс переходит к мистеру или миссис, сбивает с толку. Фрейм данных, если он очень чистый, соответствует шаблону

Имя образца из набора данных - Тодоров, мистер Лалио

Попытка шаблона регулярного выражения с моим регулярным выражением работает, как и ожидалось.

Мне интересно, если это проблема памяти Панд.

Regex Gone Wild

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Regex Gone Wild

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов