Question

У меня есть строка:

bdv. mot. g. vns. kilm.

И зная список строк, таких как

important_strings_lst=['bdv.', 'dktv.', 'mot. g.', 'vyr. g.']

Я хочу получить regex выбор как:

bdv. mot. g.

Я присоединился к списку и попробовал: идея отсюда

regex = re.compile(r'\b(?!bdv.|dktv.|mot. g.|vyr. g.)\w+', re.UNICODE)
regex.sub("", 'bdv. mot. g. vns. kilm.')

Получил

'bdv. mot. . . .'

Смена мест в регулярном выражении с помощью \s также не сработала.Как это сделать?

Я мог бы использовать что-то вроде [x for x in important_strings_lst if x in my_string], но мне нужна хорошая производительность, так как она будет использоваться с миллионами строк информационного кадра панд с str.replace

user10403681 · Answer 1 · 10 ноября 2018

Возможно разделить строку

    bdv. mot. g. vns. kilm.

используя ваш список и удалите из оригинальной строки то, что осталось после разбиения.

Håken Lid · Answer 2 · 10 ноября 2018

Символ . имеет особое значение в регулярных выражениях. Вы можете использовать re.escape, чтобы сделать строку "безопасной" для использования в регулярном выражении.

>>> import re
... important_strings=['bdv.', 'dktv.', 'mot. g.', 'vyr. g.']
... regex = re.compile('|'.join(re.escape(s) for s in important_strings))
... regex.findall('bdv. mot. g. vns. kilm.')
['bdv.', 'mot. g.']

У Pandas есть свои findall, которые должны работать как re.findall

Регулярное выражение Python удалить все, кроме строк из списка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Регулярное выражение Python удалить все, кроме строк из списка

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов