Question

url ="https://www.siliconvalleypediatricdentistry.com/"
res=requests.get(url)
html=res.text
#re.findall(r'([\w0-9._-]+@[\w0-9._-]+\.[\w0-9_-]+)',html)
#re.findall(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)",html)

Я нашел много вопросов по этому поводу, но большинство из них извлекают "неправильные" электронные письма

Я получаю это как вывод

['8b4e078a51d04e0e9efdf470027f0ec1@sentry.wixpress.com',
 'core-js-bundle@3.2.1',
 'whatwg-fetch@3.0.0',
 'requirejs-bolt@2.3.6',
 'svpdinfo@gmail.com',
 'svpdinfo@gmail.com',
 'SVPDinfo@gmail.com']

некоторые из них просто JS скриптов, есть ли безопасное регулярное выражение для использования или модуль, который делает это?

Nikola · Answer 1 · 07 апреля 2020

Просто можете попробовать это:

r'^\w+([\.-]?\w+)*@\w+([\.-]?\w+)*(\.\w{2,6})+$'

Или вы можете использовать свое собственное регулярное выражение и просто проверить, действителен ли адрес электронной почты:

from validate_email import validate_email
is_valid = validate_email('svpdinfo@gmail.com')

Zorzy · Answer 2 · 07 апреля 2020

Это работает для меня:

re.findall(r'([\w-]+@[\w-]+\.[a-zA-Z]{1,5})',html)

По сути, мы просто заставляем конец быть буквами (например, .com), поэтому сценарии JS не совпадают

безопасное регулярное выражение для поиска писем от html

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

безопасное регулярное выражение для поиска писем от html

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов