Извлечение текста из веб-страниц с помощью Python 3.x - PullRequest
0 голосов
/ 13 декабря 2011

Я работаю с Python 3.x

Я хочу извлечь текст из нескольких веб-страниц.Что такое хорошая библиотека, которая позволяет мне это делать?

Спасибо, Барри.

Ответы [ 4 ]

3 голосов
/ 13 декабря 2011
1 голос
/ 14 декабря 2011

Вы не говорите, что хотите делать с извлеченным текстом, и это делает большую разницу в том, сколько усилий вы готовы потратить, чтобы получить

Если вы пытаетесь получить основной текст веб-страницы за вычетом всех несоответствий сайта (задача нетривиальная ), примитепосмотрите на котельную трубу .Он написан на Java, но он делает удивительно хорошую работу по извлечению необходимого текста из случайных веб-страниц.

Одним из моих увлечений в течение следующих нескольких недель является воссоздание основной логики боевой трубы в Python.Нам нужна функциональность, которую он обеспечивает для проекта, но мы не хотим тащить 10-тонную скалу, которая является JVM.Я почти уверен, что мы выпустим его, как только он станет достаточно стабильным.

1 голос
/ 13 декабря 2011

Я бы предложил использовать Beautiful Soup , и это всего лишь вопрос прохождения возвращенной структуры для чего-то похожего на адрес электронной почты.

Вы также можете просто использовать urllib2 для этого, но Beautiful Soup позаботится о многих проблемах с синтаксисом.

1 голос
/ 13 декабря 2011

mechanize - хорошая библиотека, но, к сожалению, она не готова для Python 3, но вы можете взглянуть на lxml.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...