Возможно, вы захотите сделать некоторые исследования самостоятельно.Затем, когда вы столкнетесь с проблемой, задайте вопрос, связанный с проблемой.Это больше похоже на спецификацию проекта, который вы хотите, чтобы кто-то сделал для вас.
Для начала, веб-сайты используют теги для всех видов вещей, и проблема очень сложная.Возможно, вы захотите сохранить информацию в тегах h # и p, но вы также можете сохранить информацию тега div, если они используют тег id.Короче говоря, вам нужно было бы написать правила для каждого сайта, с которым вы сталкиваетесь, или использовать какую-то нечеткую логику.
Вместо того, чтобы делать это на основе тегов, почему бы не попробовать определить предложения и грамматику, иливещи, которые могут быть в заголовках, и выбрать теги, которые включают эти вещи, а вычеркивать остальное?