Python - есть ли модуль, который автоматически счищает содержание статьи с веб-страницы? - PullRequest
0 голосов
/ 01 июля 2011

Я знаю, что есть lxml и BeautifulSoup, но это не сработает для моего проекта, потому что я заранее не знаю, каким будет формат HTML сайта, который я пытаюсь очистить от статьи. Есть ли модуль типа python, похожий на Readability, который довольно хорошо выполняет поиск содержимого статьи и возвращает его?

Ответы [ 3 ]

1 голос
/ 07 июля 2011

Это можно сделать с помощью PhantomJS (C ++) или PyPhantomJS (Python).

Они оба безголовые браузеры на основе WebKit, которыми вы можете полностью управлять из JavaScript. Поскольку вы можете управлять им из JavaScript, я считаю, что действительно легко делать такие вещи, как очистка содержимого статьи.

PyPhantomJS также имеет систему плагинов, так что это определенно плюс. :)

0 голосов
/ 04 июля 2011

Используя HTQL, запрос выглядит так: & html_main_text

0 голосов
/ 01 июля 2011

Извлечение контента real со страницы контента не может быть выполнено автоматически - по крайней мере, с помощью стандартных инструментов. Вы должны определить / определить, где хранится реальный контент (указав соответствующий CSS ID или класс в вашем собственном коде извлечения HTML).

...