Создание универсального инструмента, который извлекает ссылки на статьи из домена - PullRequest
0 голосов
/ 14 июня 2019

Для любого веб-домена, являющегося новостным, я хотел бы извлечь все URL-адреса, связанные со статьями для этого домена (а не такие, как политика конфиденциальности, поддержка и т. Д.).Например, для CNN такой URL-адрес будет https://www.cnn.com/2019/06/14/politics/sarah-sanders-replacement-trump-white-house/index.html

Только для одного конкретного веб-домена, это более просто, но это сложно, потому что мне нужно сделать это универсальным для любого домена.Я попытался использовать свою собственную эвристику, используя BeautifulSoup для извлечения html-источника с каждой домашней страницы и фильтруя hrefs на основе содержимого свойств url и title (т. Е. Количество '-' в URL и количество слов в заголовке).Эта методология работает для веб-сайтов определенного формата, но, очевидно, не работает для всех сайтов.Есть ли какая-либо библиотека или скребок, которые существуют в Python, или кто-нибудь знает лучшую эвристику для этой задачи очистки?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...