Question

Я ищу умное решение для извлечения только основной информации из ряда различных веб-страниц.Когда я создаю облака слов, у меня всегда возникает проблема определения диапазона различных стоп-слов (например, «ссылки», «контакт», ...), чтобы показывать только фактический контент.Теперь я ищу способ не создавать список стоп-слов при каждой очистке нового веб-сайта.

Мне пришла в голову мысль, что некоторые HTML-теги имеют тенденцию иметь больше контента, чем другие.Это хороший способ фильтрации в предварительной обработке или у вас есть другие идеи?

Спасибо за вашу помощь.

Извлечение только контента с помощью Scrapy для создания WordClouds

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Извлечение только контента с помощью Scrapy для создания WordClouds

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы