Я работаю над школьным проектом, в котором мы хотели бы проанализировать содержание веб-страниц. Однако мы не хотим иметь дело с такими вещами, как навигационные панели и комментарии. Если бы мы смотрели на конкретный веб-сайт, мы могли бы создать парсер для фильтрации такого рода посторонних вещей специально для этого сайта, но мы надеемся работать на произвольных сайтах, с которыми мы, возможно, никогда раньше не сталкивались.
Я чувствую, что на это можно надеяться, поэтому я не удивлюсь, если ничего подобного уже не существует, но кто-нибудь знает инструмент, который может сделать такую изоляцию контента на произвольных веб-сайтах? Мне немного повезло, когда я общался с другими пользователями с того же сайта, но он несовершенен и оставляет комментарии и тому подобное.
Я работаю на Java, но приветствую что-нибудь с открытым исходным кодом на любом языке, который я могу использовать для идей.