Question

Я загрузил веб-страницу в HTML-файл. Мне интересно, какой самый простой способ получить содержание этой страницы. Под контентом я подразумеваю, что мне нужны строки, которые будет отображать браузер.

Чтобы быть ясным:

Введите:

<html><head><title>Page title</title></head>
       <body><p id="firstpara" align="center">This is paragraph <b>one</b>.
       <p id="secondpara" align="blah">This is paragraph <b>two</b>.
       </html>

Выход:

Page title This is paragraph one. This is paragraph two.

составление:

from BeautifulSoup import BeautifulSoup
import re

def removeHtmlTags(page):
    p = re.compile(r'''<(?:"[^"]*"['"]*|'[^']*'['"]*|[^'">])+>''')
    return p.sub('', page)

def removeHtmlTags2(page):
    soup = BeautifulSoup(page)
    return ''.join(soup.findAll(text=True))

Относящиеся

Удаление Python HTML
Извлечение текста из файла HTML с использованием Python
Что такое легкая библиотека Python, которая может исключать теги HTML? (и только текст)
Удаление HTML-тегов в AppEngine Python Env (эквивалентно Ruby's Sanitize)
RegEx соответствуют открытым тегам, за исключением автономных тегов XHTML (известный не использует регулярные выражения для анализа html rant)

Oddthinking · Answer 1 · 10 марта 2010

Разбор HTML с Прекрасным супом .

Чтобы получить весь текст без тегов, попробуйте:

''.join(soup.findAll(text=True))

the Tin Man · Answer 2 · 10 марта 2010

Лично я использую lxml, потому что это швейцарский армейский нож ...

from lxml import html

print html.parse('http://someurl.at.domain').xpath('//body')[0].text_content()

Это заставляет lxml извлечь страницу, найти тег <body>, затем извлечь и напечатать весь текст.

Я много разбираюсь в страницах, и регулярное выражение - неправильное решение в большинстве случаев, если только это не является единовременной необходимостью. Если автор страницы изменяет свой HTML, вы рискуете нарушить свое регулярное выражение. Парсер, скорее всего, продолжит работать.

Большая проблема с анализатором заключается в том, чтобы узнать, как получить доступ к разделам документа, который вы ищете, но есть много инструментов XPATH, которые вы можете использовать внутри своего браузера, которые упрощают задачу.

Pratik Deoghare · Answer 3 · 10 марта 2010

Вы хотите посмотреть Извлечение данных из документов HTML - Погрузитесь в Python , потому что ЗДЕСЬ это делает (почти) именно то, что ты хочешь.

Christian Hausknecht · Answer 4 · 10 марта 2010

Лучшими модулями для этой задачи являются lxml или html5lib; Красивое мыло имхо не стоит больше использовать. А для рекурсивных моделей регулярные выражения - определенно неправильный метод.

Ankit · Answer 5 · 10 марта 2010

Если я правильно понял ваш вопрос, это можно сделать с помощью функции urlopen urllib. Просто взгляните на эту функцию, чтобы открыть URL и прочитать ответ, который будет HTML-кодом этой страницы.

Alexander Gessler · Answer 6 · 10 марта 2010

Самый быстрый способ получить полезный образец того, что будет отображать браузер, - это удалить любые теги из html и распечатать остальные. Это может быть сделано, например, с использованием Python re.

Как получить содержимое HTML-страницы в Python

Относящиеся

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить содержимое HTML-страницы в Python

Относящиеся

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов