Извлечение только контента с помощью Scrapy для создания WordClouds - PullRequest
0 голосов
/ 05 июня 2019

Я ищу умное решение для извлечения только основной информации из ряда различных веб-страниц.Когда я создаю облака слов, у меня всегда возникает проблема определения диапазона различных стоп-слов (например, «ссылки», «контакт», ...), чтобы показывать только фактический контент.Теперь я ищу способ не создавать список стоп-слов при каждой очистке нового веб-сайта.

Мне пришла в голову мысль, что некоторые HTML-теги имеют тенденцию иметь больше контента, чем другие.Это хороший способ фильтрации в предварительной обработке или у вас есть другие идеи?

Спасибо за вашу помощь.

...