Python и Regex: проблема с re findall () - PullRequest
0 голосов
/ 05 августа 2020

Это проект, найденный @ https://automatetheboringstuff.com/2e/chapter7/ Он ищет текст в буфере обмена для телефонных номеров и электронных писем, а затем снова копирует результаты в буфер обмена.

Если я правильно понял, когда регулярное выражение содержит группы, функция findall () возвращает список кортежей. Каждый кортеж будет содержать строки, соответствующие каждой группе регулярных выражений.

Теперь это моя проблема: регулярное выражение на phoneRegex, насколько я могу судить, содержит только 6 групп (пронумерованных в коде) (так что я ожидал бы кортежи длины 6)

Но когда я печатаю кортежи, я получаю кортежи длиной 9

('800-420-7240', '800', '-', '420', '-', '7240', '', '', '')
('415-863-9900', '415', '-', '863', '-', '9900', '', '', '')
('415-863-9950', '415', '-', '863', '-', '9950', '', '', '')

Что мне не хватает?

#! python3
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard.

import pyperclip, re

phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?                # area code (first group?)0
    (\s|-|\.)?                        # separator               1
    (\d{3})                           # first 3 digits          2
    (\s|-|\.)                         # separator               3
    (\d{4})                           # last 4 digits           4
    (\s*(ext|x|ext.)\s*(\d{2,5}))?    # extension               5
    )''', re.VERBOSE)

# Create email regex.
emailRegex = re.compile(r'''(
   [a-zA-Z0-9._%+-]+      # username
   @                      # @ symbol
   [a-zA-Z0-9.-]+         # domain name
    (\.[a-zA-Z]{2,4})     # dot-something
    )''', re.VERBOSE)

text = str(pyperclip.paste())

matches = []
for groups in phoneRegex.findall(text):
    print(groups)
    phoneNum = '-'.join([groups[1], groups[3], groups[5]])
    if groups[8] != '':
        phoneNum += ' x' + groups[8]
    matches.append(phoneNum)
for groups in emailRegex.findall(text):
    matches.append(groups[0])

    # Copy results to the clipboard.
if len(matches) > 0:
    pyperclip.copy('\n'.join(matches))
    print('Copied to clipboard:')
    print('\n'.join(matches))
else:
    print('No phone numbers or email addresses found.')

1 Ответ

1 голос
/ 05 августа 2020

Все, что указано в скобках, станет группой захвата (и добавит единицу к длине кортежа re.findall), если вы не укажете иное. Чтобы превратить подгруппу в группу без захвата, добавьте ?: внутри скобок:

phoneRegex = re.compile(r'''(
    (\d{3}|\(\d{3}\))?                 
    (\s|-|\.)?                        
    (\d{3})                           
    (\s|-|\.)                         
    (\d{4})                              
    (\s*(?:ext|x|ext.)\s*(?:\d{2,5}))?    # <---
    )''', re.VERBOSE)

Вы можете видеть, что часть расширения добавляла две дополнительные группы захвата. В этой обновленной версии в вашем кортеже будет 7 элементов. Их 7 вместо 6, потому что сопоставляется и вся строка.

Регулярное выражение тоже могло бы быть лучше. Это чище и будет соответствовать большему количеству случаев с флагом re.IGNORECASE:

phoneRegex = re.compile(r'''(
    (\(?\d{3}\)?)                
    ([\s.-])?                        
    (\d{3})                           
    ([\s.-])                         
    (\d{4})                              
    \s*  # don't need to capture whitespace
    ((?:ext\.?|x)\s*(?:\d{1,5}))?
    )''', re.VERBOSE | re.IGNORECASE)
...