Question

Я работаю над школьным проектом, в котором мы хотели бы проанализировать содержание веб-страниц. Однако мы не хотим иметь дело с такими вещами, как навигационные панели и комментарии. Если бы мы смотрели на конкретный веб-сайт, мы могли бы создать парсер для фильтрации такого рода посторонних вещей специально для этого сайта, но мы надеемся работать на произвольных сайтах, с которыми мы, возможно, никогда раньше не сталкивались.

Я чувствую, что на это можно надеяться, поэтому я не удивлюсь, если ничего подобного уже не существует, но кто-нибудь знает инструмент, который может сделать такую изоляцию контента на произвольных веб-сайтах? Мне немного повезло, когда я общался с другими пользователями с того же сайта, но он несовершенен и оставляет комментарии и тому подобное.

Я работаю на Java, но приветствую что-нибудь с открытым исходным кодом на любом языке, который я могу использовать для идей.

David · Answer 1 · 26 января 2011

Я немного опоздала с этим (особенно для школьного проекта), но если кто-то обнаружит это в какой-то момент в будущем, может помочь следующее.

Я наткнулся на библиотеку Java, чтобы сделать именно это. Производительность в моих простых тестах похожа на удобочитаемость.

http://code.google.com/p/boilerpipe/

dteoh · Answer 2 · 22 ноября 2010

Вы можете попробовать неофициальный API Readability Arc90.

По сути, читабельность заключается в извлечении контента на веб-странице и представлении его в виде красиво отформатированной статьи.Панели навигации, комментарии и все остальное, что окружает контент на веб-странице, исчезли.

john.jansen · Answer 3 · 02 августа 2012

Я также немного опоздал к этому разговору, но ...

экстракторы Java Boilerpipe, вероятно, то, что вам нужно (вероятно ArticleSentencesExtractor), хотя есть по крайней мере 1 порт для чтения из arc90 в java на github.

Если вы хотите построить плохую трубу для человека, вы можете попробовать разложить 2 страницы с одного сайта (при условии, что они используют один и тот же шаблон, вы, вероятно, получите интересный результат)

Основное различие между котлом, удобочитаемостью и хаком на основе различий состоит в том, что котел удалит все HTML, но сохранит некоторую структуру

Stephen C · Answer 4 · 22 ноября 2010

Я сомневаюсь, что существует что-то, что будет делать то, что вы хотите. Без какой-либо семантической разметки почти невозможно отличить "реальный" контент от других вещей. Это задача, требующая настоящего интеллекта.

Конечно, есть хорошие инструменты для разбора HTML различной степени корректности, и часто можно объединить какое-то решение на основе шаблонов для работы со страницами на определенном сайте ... при условии, что существуют общие структуры / шаблоны быть выявленным.

Существуют ли инструменты для изоляции содержимого веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Существуют ли инструменты для изоляции содержимого веб-страницы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы