Очистить текст после html2txt - PullRequest
       4

Очистить текст после html2txt

0 голосов
/ 23 октября 2011

Я использую lxml для преобразования html в txt. Я почти добился того, чего хотел, с готовым разбором, преобразованием и некоторыми частями функций очистки (табуляции, пробелов, пустых строк) и запуска и запуска программы.

Однако, после того, как я попробовал свой код с примерно сотней htmls (все с разных сайтов), я заметил некоторые исключения, то есть такие строки, как:

#wrapper #PrimaryNav {margin:0;*overflow:hidden;}
a.scbbtnred{background-position:right -44px;}
a.scbbtnblack{background-position:right -176px;}
.ghsearch{width:58px;height:21px;line-height:21px;background-position:0 -80px;}
a.scbbtnred span span{background-color:#f00;background-position:0 -22px;}

Я полагаю, это CSS? или другие вещи веб-программирования. Но я совершенно незнаком с ними.

Вопросы: Что это за строки? И какие-либо предложения о том, как проехать эти линии?


Редактировать: Вот как я делал части перед этим вопросом для справки для тех, кто заглядывает в этот пост в будущем (новичок в python, многие вещи здесь могут быть улучшены, но это работает хорошо для меня):

# Function for html2txt using lxml
# Author:
# http://groups.google.com/group/cn.bbs.comp.lang.python/browse_thread/thread/781a357e2ce66ce8
def html2text(html):
    tree = lxml.etree.fromstring(html, lxml.etree.HTMLParser()) if isinstance(html, basestring) else html 
    for skiptag in ('//script', '//iframe', '//style'):    
        for node in tree.xpath(skiptag):
            node.getparent().remove(node)
    # return lxml.etree.tounicode(tree, method='text')
    return lxml.etree.tostring(tree, encoding=unicode, method='text')



#Function for cleanup the text:
# 1: clearnup: 1)tabs, 2)spaces, 3)empty lines;
# 2: remove short lines
def textcleanup(text):
    # temp list for process
    text_list = []
    for s in text.splitlines():
        # Strip out meaningless spaces and tabs
        s = s.strip()
        # Set length limit
        if s.__len__() > 35:
            text_list.append(s)
    cleaned = os.linesep.join(text_list)
    # Get rid of empty lines
    cleaned = os.linesep.join([s for s in cleaned.splitlines() if s])
    return cleaned

1 Ответ

2 голосов
/ 23 октября 2011

Это действительно CSS.Вы получаете такой документ:

<style>
#wrapper #PrimaryNav {margin:0;*overflow:hidden;}
a.scbbtnred{background-position:right -44px;}
a.scbbtnblack{background-position:right -176px;}
.ghsearch{width:58px;height:21px;line-height:21px;background-position:0 -80px;}
a.scbbtnred span span{background-color:#f00;background-position:0 -22px;}
</style>
<div>
    <p>This bit is HTML</p>
</div>

Вам нужно удалить все теги style перед разбором текста.

...