Question

Какая работа, если таковая вообще была сделана, была выполнена для автоматического определения наиболее важных данных в HTML-документе? Например, подумайте о вашем стандартном сайте новостей / блогов / журналов, содержащем навигацию (возможно с подменю), рекламу, комментарии и приз - нашу статью / блог / новостное тело.

Как бы вы определили, какая информация в новостях / блоге / журнале является первичными данными в автоматическом режиме?

Примечание. В идеале метод должен работать с правильно сформированной разметкой и ужасной разметкой. Использует ли кто-то теги абзаца для создания абзацев или серию разрывов.

JacquesB · Answer 1 · 19 июня 2009

Я бы искал предложения с пунктуацией. Меню, верхние и нижние колонтитулы и т. Д. Обычно содержат отдельные слова, но не предложения, заканчивающиеся запятыми и заканчивающиеся точкой или эквивалентной пунктуацией.

Вы можете найти первый и последний элемент, содержащий предложения с пунктуацией, и взять все между ними. Заголовки являются особым случаем, так как они обычно также не имеют пунктуации, но вы обычно можете распознать их как элементы Hn непосредственно перед предложениями.

atfergs · Answer 2 · 17 июня 2009

Я бы, вероятно, начал с заголовка и чего-либо еще в теге Head, затем отфильтровал теги заголовка по порядку (т.е. h1, h2, h3 и т. сверху вниз. В зависимости от того, как это оформлено, можно предположить, что заголовок страницы будет иметь идентификатор или уникальный класс.

Программное обнаружение «самого важного контента» на странице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Программное обнаружение «самого важного контента» на странице

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы