Какая работа, если таковая вообще была сделана, была выполнена для автоматического определения наиболее важных данных в HTML-документе? Например, подумайте о вашем стандартном сайте новостей / блогов / журналов, содержащем навигацию (возможно с подменю), рекламу, комментарии и приз - нашу статью / блог / новостное тело.
Как бы вы определили, какая информация в новостях / блоге / журнале является первичными данными в автоматическом режиме?
Примечание. В идеале метод должен работать с правильно сформированной разметкой и ужасной разметкой. Использует ли кто-то теги абзаца для создания абзацев или серию разрывов.