Удаление ненужных частей веб-страницы - PullRequest
2 голосов
/ 19 мая 2011

Существует ли API или систематический способ удаления ненужных частей веб-страницы при ее очистке с помощью Python? Например, возьмите именно эту страницу - единственная важная часть - это вопрос и ответы, а не столбец боковой панели, заголовок и т. Д. Можно догадываться о подобных вещах, но есть ли разумный способ сделать это?

Ответы [ 4 ]

3 голосов
/ 19 мая 2011

Существует подход из букмарклета Readability , по крайней мере с двумя доступными реализациями Python:

3 голосов
/ 19 мая 2011

В общем, нет.В определенных случаях, если вы знаете что-то о структуре сайта, который вы просматриваете, вы можете использовать инструмент, такой как Beautiful Soup , для управления DOM.

1 голос
/ 23 мая 2011

Один из подходов состоит в сравнении структуры нескольких веб-страниц, которые используют один и тот же шаблон.В этом случае вы бы сравнили несколько вопросов SO.Затем вы можете определить, какой контент является статическим (бесполезным) или динамическим (полезным).

Это поле известно как индуктор оболочки .К сожалению, это сложнее, чем кажется!

0 голосов
/ 29 мая 2011

Этот проект git hub решает вашу проблему, но на Java.Может быть стоит посмотреть: гусь

...