Определение основного содержимого страницы - PullRequest
1 голос
/ 03 августа 2009

Учитывая HTML-страницу, которая представляет собой текстовую статью, я хотел бы определить и разобрать основной контент.

Используя http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html в качестве примера, я хочу определить div # post-4438372351887392855, который содержит заголовок и статью.

Я знаю, что ничто не может быть идеальным или работать 100% времени, но есть ли подход, который может дать мне желаемый результат при разумном количестве обстоятельств?

Моя нынешняя мысль состоит в том, чтобы перебирать каждый элемент div, убирать разметку и затем находить самый внутренний элемент div, содержащий наибольшее количество текста.

На данный момент, я только начинаю, поэтому в поисках информации я могу предложить концептуальный подход. Или, если что-то есть, библиотека с открытым исходным кодом была бы хороша.

Заранее благодарим за понимание.

Ответы [ 2 ]

1 голос
/ 29 декабря 2011

Наиболее полный скомпилированный список ресурсов для извлечения первичного контента:

  1. Извлечение текста статьи из HTML-документов
  2. Список ресурсов: извлечение текста статьи из HTML-документов

Посмотрите также на комментарии, так как есть дополнительные советы.

1 голос
/ 03 августа 2009

Некоторые ребята из arc90 проделали довольно внушительную работу с этим благодаря своему читабельному букмарклету . Похоже, он довольно хорошо справляется с поиском «основного» контента - отлично работает на странице, которую вы перечислили.
Вы можете просмотреть их хорошо прокомментированный javascript (ссылка на который есть в букмарклете), но вы можете обратиться к разработчикам за их идеями и разрешением их использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...