Я пытаюсь извлечь письмо из резюме с помощью pdfminer и регулярных выражений
from io import StringIO
from pdfminer3.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer3.converter import TextConverter
from pdfminer3.layout import LAParams
from pdfminer3.pdfpage import PDFPage
import re
def get_cv_email(self, cv_path):
pagenums = set()
output = StringIO()
manager = PDFResourceManager()
converter = TextConverter(manager, output, laparams=LAParams())
interpreter = PDFPageInterpreter(manager, converter)
infile = open(cv_path, 'rb')
for page in PDFPage.get_pages(infile, pagenums):
interpreter.process_page(page)
infile.close()
converter.close()
text = output.getvalue()
output.close()
match = re.search(r'[\w\.-]+@[\w\.-]+', text)
email = match.group(0)
return email
Письмо успешно извлечено для большинства резюме, но оно не всегда работает правильно
Пример: jayantanathcdh@gmail.comEducationalQualification
ОБНОВЛЕНИЕ: Как я могу отредактировать свое регулярное выражение, чтобы игнорировать то, что будет после сообщения, если оно начинается с заглавной буквы