Question

Мне нужно извлечь текст из любого вида веб-страницы с помощью регулярных выражений в Python.Мой код отлично работает с HTML-тегами, но из-за неправильного синтаксиса тегов и атрибутов, заключенных между тегами сценария, код, который я разработал, извлекает некоторые данные сценариев в дополнение к полезному тексту.Есть ли способ избежать этого?

def TextExtract():  
    page=urllib.urlopen(URL).read()    
    print "TEXT: "  
    for m in re.finditer("(?#extracts <TAG>TEXT till next <)(?s)<(?=[^!--]).+?>.*?(?=<)",page):  
        if(m!=None):  
            ##print m.group(),"\n"  
            l=re.search("(?#extracts TEXT between > and <)(?s)(?<=>).*",m.group())  
            n=re.search("(?#discards script and style tags)(?s)(<style.*)|(<script.*)",m.group())  
            if(n==None):  
                print l.group()

Linus Gustav Larsson Thiel · Answer 1 · 03 марта 2012

Не анализировать HTML с регулярным выражением .Вместо этого используйте популярную библиотеку Python lxml.html .

Обобщенное извлечение текста из веб-страниц с использованием регулярных выражений и Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обобщенное извлечение текста из веб-страниц с использованием регулярных выражений и Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов