используя re в создании списка стоп-слов - PullRequest
0 голосов
/ 02 апреля 2019

Я хотел бы создать свой собственный список стоп-слов. Чтобы заняться строчными и прописными буквами, я хочу включить re в список:

new_stopwords = ['food','eat','drink','order','time',r'[?M?m?c?C\S]','service'] 

r'[?M?m?c?C\S]' предназначено, чтобы найти все варианты McDonald's. но это не похоже на работу

1 Ответ

0 голосов
/ 02 апреля 2019

Вы совершаете распространенную ошибку новичка, полагая, что квадратные скобки делают ... то, чего они не делают.Квадратные скобки в регулярном выражении вводят класс символов , где механизм регулярных выражений будет соответствовать любому из символов в квадратных скобках.Таким образом, [M?m?] будет соответствовать одному M, или ?, или m (или ?, но мы уже говорили об этом, не так ли?)

Возможно, выищите что-то вроде

r"[Mm][Cc][Dd]\w+'?s"

, которое будет соответствовать верхнему или нижнему регистру M, за которым следует верхний или нижний регистр C, за которым следует верхний или нижний регистр D, за которым следует любое слово"символ \w, повторенный один или несколько раз +, за которым следует апостроф ' (необязательно) ?, за которым следует строчная буква s.

Мы не можем прочитать ваши мысли,но, надеюсь, это, по крайней мере, поможет вам лучше сформулировать, что вы хотите сказать.На странице информации о теге Stack Overflow regex описаны некоторые распространенные ошибки новичков и способы их устранения, а также приведены ссылки на дополнительные ресурсы для обучения и тестирования, связанные с регулярными выражениями.

...