Question

Учитывая HTML-страницу, которая представляет собой текстовую статью, я хотел бы определить и разобрать основной контент.

Используя http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html в качестве примера, я хочу определить div # post-4438372351887392855, который содержит заголовок и статью.

Я знаю, что ничто не может быть идеальным или работать 100% времени, но есть ли подход, который может дать мне желаемый результат при разумном количестве обстоятельств?

Моя нынешняя мысль состоит в том, чтобы перебирать каждый элемент div, убирать разметку и затем находить самый внутренний элемент div, содержащий наибольшее количество текста.

На данный момент, я только начинаю, поэтому в поисках информации я могу предложить концептуальный подход. Или, если что-то есть, библиотека с открытым исходным кодом была бы хороша.

Заранее благодарим за понимание.

sw. · Answer 1 · 29 декабря 2011

Наиболее полный скомпилированный список ресурсов для извлечения первичного контента:

Посмотрите также на комментарии, так как есть дополнительные советы.

Peter M · Answer 2 · 03 августа 2009

Некоторые ребята из arc90 проделали довольно внушительную работу с этим благодаря своему читабельному букмарклету . Похоже, он довольно хорошо справляется с поиском «основного» контента - отлично работает на странице, которую вы перечислили.
Вы можете просмотреть их хорошо прокомментированный javascript (ссылка на который есть в букмарклете), но вы можете обратиться к разработчикам за их идеями и разрешением их использования.

Определение основного содержимого страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Определение основного содержимого страницы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы