Question

До версии 3.0.5 BeautifulSoup обрабатывал содержимое как HTML. Теперь он воспринимает это как текст. Документ, который я анализирую, содержит HTML внутри тегов textarea, и я пытаюсь его обработать.

Я пробовал:

    for textarea in soup.findAll('textarea'):
        contents = BeautifulSoup.BeautifulSoup(textarea.contents)
        textarea.replaceWith(contents.html(text=True))

Но я получаю ошибки. Я не могу найти это в документации, и альтернативные парсеры не помогают. Кто-нибудь знает, как я могу анализировать текстовые области как HTML?

Редактировать:

Пример HTML:

<textarea class="ks-lazyload-custom">
  <div class="product-view product-view-rug">
    Foobar Womble
    <div class="product-view-head">
      <img src="tps/i1/fo-25.gif" />
    </div>
  </div>
</textarea>

Ошибка:

File "D:\src\cross\tserver\src\tools\sitecrawl\BeautifulSoup.py", line 1913, 
in _detectEncoding '^<\?.*encoding=[\'"](.*?)[\'"].*\?>').match(xml_data)
TypeError: expected string or buffer

Я ищу способ взять элемент, извлечь содержимое, проанализировать его с BeautifulSoup, свернуть его в текст, а затем заменить содержимое исходного элемента (или заменить весь элемент) этим текстом. 1017 *

Что касается реального мира против спецификаций, то здесь он на самом деле не особенно актуален. Данные должны быть проанализированы, я ищу способ сделать это.

Justin Peel · Answer 1 · 19 апреля 2010

Это, кажется, работает довольно хорошо (если я правильно понял, что вы хотели):

for textarea in soup.findAll('textarea'):
    contents = BeautifulSoup.BeautifulSoup(textarea.contents[0]).renderContents()
    textarea.replaceWith(contents)

brofield · Answer 2 · 19 апреля 2010

Я сейчас использую следующий код, который в основном работает. Ваш пробег может варьироваться.

def _extractText(self, data, encoding):
    if self.isDebug: self._output("_extractText")
    soup = BeautifulSoup.BeautifulSoup(data, fromEncoding=encoding)
    comments = soup.findAll(text=lambda text:isinstance(text, BeautifulSoup.Comment))
    [comment.extract() for comment in comments]
    [script.extract() for script in soup.findAll('script')]
    [css.extract() for css in soup.findAll('style')]
    for textarea in soup.findAll('textarea'):
        textarea.string = self._extractText(textarea.renderContents(), 'UTF-8')
    text = unicode('')
    for line in soup.findAll(text=True):
        line = line.replace('&nbsp;', ' ').strip()  
        if line == '': continue
        if line.startswith('doctype'): continue
        if line.startswith('DOCTYPE'): continue
        text = text + line + '\n'
    return text

Как заставить BeautifulSoup анализировать содержимое тегов textarea как HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как заставить BeautifulSoup анализировать содержимое тегов textarea как HTML?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы