Question

Я знаю, что есть lxml и BeautifulSoup, но это не сработает для моего проекта, потому что я заранее не знаю, каким будет формат HTML сайта, который я пытаюсь очистить от статьи. Есть ли модуль типа python, похожий на Readability, который довольно хорошо выполняет поиск содержимого статьи и возвращает его?

John Doe · Answer 1 · 07 июля 2011

Это можно сделать с помощью PhantomJS (C ++) или PyPhantomJS (Python).

Они оба безголовые браузеры на основе WebKit, которыми вы можете полностью управлять из JavaScript. Поскольку вы можете управлять им из JavaScript, я считаю, что действительно легко делать такие вещи, как очистка содержимого статьи.

PyPhantomJS также имеет систему плагинов, так что это определенно плюс. :)

Andreas Jung · Answer 2 · 01 июля 2011

Извлечение контента real со страницы контента не может быть выполнено автоматически - по крайней мере, с помощью стандартных инструментов. Вы должны определить / определить, где хранится реальный контент (указав соответствующий CSS ID или класс в вашем собственном коде извлечения HTML).

Python - есть ли модуль, который автоматически счищает содержание статьи с веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python - есть ли модуль, который автоматически счищает содержание статьи с веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы