Question

Я новичок в pyparsing.
Как я могу преобразовать экземпляр класса pyparsing.ParseResults обратно в HTML-строку.

отл.

>>> type(gcdata)
<type 'unicode'>
>>> pat
{<"div"> SkipTo:(</"div">) </"div">}
>>> type(pat)
<class 'pyparsing.And'>
>>> 
>>> l = pat.searchString( gcdata  )
>>> l[0]
(['div', ([u'class', u'shoveler'], {}), ([u'id', u'purchaseShvl'], {}), False, u'<div class="shoveler-heading">\n    <p>Customers Who Bought This Item Also Bought</p>\n    \n', '</div>'], {'startDiv': [((['div', ([u'class', u'shoveler'], {}), ([u'id', u'purchaseShvl'], {}), False], {u'class': [(u'shoveler', 1)], 'empty': [(False, 3)], u'id': [(u'purchaseShvl', 2)]}), 0)], 'endDiv': [('</div>', 5)], u'class': [(u'shoveler', 1)], 'empty': [(False, 3)], u'id': [(u'purchaseShvl', 2)]})
>>> 
>>> type(l[0])
<class 'pyparsing.ParseResults'>
>>> 
>>> divhtml = foo (l[0])

Итак, мне нужна эта функция foo .
Есть предложения?

PaulMcG · Answer 1 · 10 марта 2011

Это проблема с выражениями, возвращаемыми makeHTMLTags, из-за которой происходит много дополнительных группировок и имен, которые мешают вам, если вы просто хотите текст тега.

В Pyparsing входит методoriginalTextFor, чтобы помочь решить эту проблему.Основываясь на примере кода из @samplebias:

start, end = makeHTMLTags('div')
#anchor = start + SkipTo(end).setResultsName('body') + end 
anchor = originalTextFor(start + SkipTo(end).setResultsName('body') + end)

Оборачивая выражение в originalTextFor, все разбиение тега на его составные части отменяется, и вы просто возвращаете текст изисходная строка (также включая любые промежуточные пробелы).Поведение по умолчанию - просто вернуть вам эту строку, что имеет неприятный побочный эффект потери всех имен результатов, поэтому возвращение проанализированных значений атрибута может быть хлопотным.Когда я писал originalTextFor, я предполагал, что нужна именно строка, и я не мог прикрепить имена результатов к строке.Поэтому я добавил необязательный параметр asString в originalTextFor, который по умолчанию равен True, но если он передан как False, он вернет ParseResults, содержащий только один токен всей совпадающей строки, плюс все совпадающие имена результатов,Таким образом, вы все еще можете извлечь res.id из результатов, в то время как res[0] вернет вам весь соответствующий HTML.

Некоторые другие комментарии:

<div> - очень распространенный тег, иодин легко сопоставляется по ошибке, используя только тег, возвращаемый makeHTMLTags.Он будет соответствовать любому div, и, вероятно, многим, которые вам не очень интересны. Вы можете сократить количество несоответствий, если можете указать какой-либо атрибут, который также должен совпадать, используя withAttribute.Вы можете сделать это с помощью:

start.setParseAction(withAttribute(id="purchaseShvl"))

или

start.setParseAction(withAttribute(**{"class":"shovelr"}))

(Использование 'class' в качестве атрибута фильтрации, вероятно, является наиболее распространенной вещью, которую вы хотите сделать, но так как 'class 'также является ключевым словом Python, вы можете просто использовать форму именованных аргументов, как я сделал с id, тоже неплохо.)

Наконец, наряду с общностью <div> является вероятность вложения.элементы div часто вложены в элементы div, и просто SkipTo недостаточно умен, чтобы принять это во внимание.Мы видим это при восстановлении ваших опубликованных результатов:

<div class='shovelr' id='purchaseShvl>
<div class='shovelr-heading'>
<p>Customers WhoBought This Item Also Bought</p>
</div>

Первый завершающий </div> заканчивает совпадение для вашего выражения.Я подозреваю, что вам, возможно, придется расширить свое совпадающее выражение, чтобы учесть эти дополнительные элементы div вместо простого SkipTo (end).

samplebias · Answer 2 · 09 марта 2011

Вам было бы намного лучше использовать HTML-парсер, который возвращает DOM, например lxml.html , но я подозреваю, что вы делаете это больше для изучения Pyparsing. Поскольку вы не опубликовали фрагмент исходного кода, я сделал несколько предположений и сделал пример, используя pyparsing.makeHTMLTags, перечисленный ниже.

import cgi
from pyparsing import makeHTMLTags, SkipTo

raw = """<body><div class="shoveler" id="purchaseShvl">
<p>Customers who bought this item also bought</p>
<div class="foo">
    <span class="bar">Shovel cozy</span>
    <span class="bar">Shovel rack</span>
</div>
</div></body>"""

def foo(parseResult):
    parts = []
    for token in parseResult:
        st = '<div id="%s" class="%s">' % \
             (cgi.escape(getattr(token, 'id')),
             cgi.escape(getattr(token, 'class')))
        parts.append(st + token.body + token.endDiv)
    return '\n'.join(parts)

start, end = makeHTMLTags('div')
anchor = start + SkipTo(end).setResultsName('body') + end
res = anchor.searchString(raw)
print foo(res)

Преобразование pyparsing.ParseResults обратно в HTML-строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Преобразование pyparsing.ParseResults обратно в HTML-строку

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы