Интересно, кто-нибудь может указать мне направление научных работ или связанных с ними реализаций эвристических подходов к поиску реального содержания мяса определенной веб-страницы.
Очевидно, что это не тривиальная задача, поскольку описание проблемы настолько расплывчато, но я думаю, что у всех нас есть общее понимание того, что подразумевается под основным содержанием страницы.
Например, он может включать текст истории для новостной статьи, но может не включать какие-либо элементы навигации, правовые оговорки, связанные с ними истории, комментарии и т. Д. Названия статей, даты, имена авторов и другие метаданные попадают в серая категория.
Я полагаю, что ценность такого подхода для приложения велика, и можно ожидать, что Google каким-то образом будет использовать его в своем алгоритме поиска, поэтому мне кажется, что этот предмет рассматривался учеными в прошлом.
Любые ссылки?