Я ищу умное решение для извлечения только основной информации из ряда различных веб-страниц.Когда я создаю облака слов, у меня всегда возникает проблема определения диапазона различных стоп-слов (например, «ссылки», «контакт», ...), чтобы показывать только фактический контент.Теперь я ищу способ не создавать список стоп-слов при каждой очистке нового веб-сайта.
Мне пришла в голову мысль, что некоторые HTML-теги имеют тенденцию иметь больше контента, чем другие.Это хороший способ фильтрации в предварительной обработке или у вас есть другие идеи?
Спасибо за вашу помощь.