Question

Я работаю с Python 3.x

Я хочу извлечь текст из нескольких веб-страниц.Что такое хорошая библиотека, которая позволяет мне это делать?

Спасибо, Барри.

Fabián Heredia Montiel · Answer 1 · 13 декабря 2011

http://www.crummy.com/software/BeautifulSoup/

и документация для начала работы

http://www.crummy.com/software/BeautifulSoup/documentation.html

Peter Rowell · Answer 2 · 14 декабря 2011

Вы не говорите, что хотите делать с извлеченным текстом, и это делает большую разницу в том, сколько усилий вы готовы потратить, чтобы получить

Если вы пытаетесь получить основной текст веб-страницы за вычетом всех несоответствий сайта (задача нетривиальная ), примитепосмотрите на котельную трубу .Он написан на Java, но он делает удивительно хорошую работу по извлечению необходимого текста из случайных веб-страниц.

Одним из моих увлечений в течение следующих нескольких недель является воссоздание основной логики боевой трубы в Python.Нам нужна функциональность, которую он обеспечивает для проекта, но мы не хотим тащить 10-тонную скалу, которая является JVM.Я почти уверен, что мы выпустим его, как только он станет достаточно стабильным.

Casey · Answer 3 · 13 декабря 2011

Я бы предложил использовать Beautiful Soup , и это всего лишь вопрос прохождения возвращенной структуры для чего-то похожего на адрес электронной почты.

Вы также можете просто использовать urllib2 для этого, но Beautiful Soup позаботится о многих проблемах с синтаксисом.

pna · Answer 4 · 13 декабря 2011

mechanize - хорошая библиотека, но, к сожалению, она не готова для Python 3, но вы можете взглянуть на lxml.html

Извлечение текста из веб-страниц с помощью Python 3.x

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение текста из веб-страниц с помощью Python 3.x

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов