Адреса электронной почты должны быть просты для извлечения - вы можете написать шаблон токена или даже посмотреть на атрибут токена like_email
, который вернет True
, если он похож на адрес электронной почты.
Чтобы выяснить, как токен адреса электронной почты связан с остальной частью предложения, один из подходов состоит в том, чтобы посмотреть на синтаксис и написать собственную логику извлечения, используя синтаксические зависимости (token.dep_
), теги части речи (token.pos_
) или поддерево (token.subtree
).
Вот пример, демонстрирующий идею:
Адрес электронной почты прикреплен к глаголу "is", который прикреплен к теме предложения "адрес электронной почты". Собственное существительное «Петр» прикреплено к предмету с пометкой poss
(притяжательный). Таким образом, владельцем адреса электронной почты является Питер. Если ваши предложения выглядят так, вы можете написать функцию, которая извлекает эту информацию на основе токенов и их отношений.
Конечно, это не всегда так просто - ваши тексты могут выглядеть очень по-разному, и вам, возможно, придется писать логику для различных конструкций. Для получения дополнительной информации и примеров см. Документацию по сочетанию моделей и правил .