Эвристические подходы к поиску основного контента - PullRequest
4 голосов
/ 17 февраля 2011

Интересно, кто-нибудь может указать мне направление научных работ или связанных с ними реализаций эвристических подходов к поиску реального содержания мяса определенной веб-страницы.

Очевидно, что это не тривиальная задача, поскольку описание проблемы настолько расплывчато, но я думаю, что у всех нас есть общее понимание того, что подразумевается под основным содержанием страницы.

Например, он может включать текст истории для новостной статьи, но может не включать какие-либо элементы навигации, правовые оговорки, связанные с ними истории, комментарии и т. Д. Названия статей, даты, имена авторов и другие метаданные попадают в серая категория.

Я полагаю, что ценность такого подхода для приложения велика, и можно ожидать, что Google каким-то образом будет использовать его в своем алгоритме поиска, поэтому мне кажется, что этот предмет рассматривался учеными в прошлом.

Любые ссылки?

Ответы [ 2 ]

2 голосов
/ 17 февраля 2011

Один из способов решения этой проблемы - проблема извлечения информации.

Таким образом, один высокоуровневый алгоритм должен был бы собрать несколько примеров одного и того же типа страницы и вывести правила синтаксического анализа (или извлечения) для разных частей страницы (это, вероятно, будет основной темой). Интуиция заключается в том, что общий шаблон (верхний и нижний колонтитулы и т. Д.) И реклама в конечном итоге будут появляться на нескольких примерах этих веб-страниц, поэтому, обучившись некоторым из них, вы сможете быстро начать надежно определять этот шаблон / дополнительный код и впоследствии игнорировать Это. Это не надежно, но это также основа технологий веб-скребков, как коммерческих, так и академических, таких как RoadRunner:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.21.8672&rep=rep1&type=pdf

Цитата:

Вальтер Крешенци, Мекка Джинсальваторе, Паоло Мериальдо: RoadRunner: Навстречу Автоматическое извлечение данных из большого Веб-сайты. VLDB 2001: 109-118

Существует также хорошо процитированный обзор технологий добычи:

Альберто Х. Ф. Ландер, Бертье А. Рибейро-Нето, Алтигран С. да Сильва, Джулиана С. Тейшейра, краткий обзор инструменты извлечения веб-данных, ACM SIGMOD Запись, т.31, п.2, июнь 2002 г. [Дои> 10,1145 / 565117,565137]

1 голос
/ 06 марта 2011

Для реализации этого взгляните на «Букмарклет Readability» , он хорошо справляется с устранением шума и оставляет только мясо. Обсуждение алгоритмов на этой странице переполнения стека .

...