Программное обнаружение «самого важного контента» на странице - PullRequest
8 голосов
/ 17 июня 2009

Какая работа, если таковая вообще была сделана, была выполнена для автоматического определения наиболее важных данных в HTML-документе? Например, подумайте о вашем стандартном сайте новостей / блогов / журналов, содержащем навигацию (возможно с подменю), рекламу, комментарии и приз - нашу статью / блог / новостное тело.

Как бы вы определили, какая информация в новостях / блоге / журнале является первичными данными в автоматическом режиме?

Примечание. В идеале метод должен работать с правильно сформированной разметкой и ужасной разметкой. Использует ли кто-то теги абзаца для создания абзацев или серию разрывов.

Ответы [ 12 ]

0 голосов
/ 19 июня 2009

Я бы искал предложения с пунктуацией. Меню, верхние и нижние колонтитулы и т. Д. Обычно содержат отдельные слова, но не предложения, заканчивающиеся запятыми и заканчивающиеся точкой или эквивалентной пунктуацией.

Вы можете найти первый и последний элемент, содержащий предложения с пунктуацией, и взять все между ними. Заголовки являются особым случаем, так как они обычно также не имеют пунктуации, но вы обычно можете распознать их как элементы Hn непосредственно перед предложениями.

0 голосов
/ 17 июня 2009

Я бы, вероятно, начал с заголовка и чего-либо еще в теге Head, затем отфильтровал теги заголовка по порядку (т.е. h1, h2, h3 и т. сверху вниз. В зависимости от того, как это оформлено, можно предположить, что заголовок страницы будет иметь идентификатор или уникальный класс.

...