В настоящее время я работаю над проектом, в котором я хочу проанализировать различные статьи из разных блогов, журналов и т. Д., Опубликованные онлайн на их веб-сайте.
Поэтому я уже создал Webcrawler, используя Python, который выдает мне каждую новую статью в виде HTML.
Теперь вот смысл, я хочу проанализировать чистый контент (только статью, без комментариев, рекомендаций и т. Д.), Но я не могу получить доступ к этому контенту без определения регулярного выражения, чтобы извлечь контент из ответа html я получил. Регулярные выражения для каждого источника не являются альтернативой, потому что у меня есть около 100 различных источников для статей.
Я пытался использовать библиотеку html2text для извлечения контента, но библиотека преобразует только чистый HTML в уценку, так что все еще есть такие вещи, как комментарии или рекомендации, которые я должен удалить вручную.
Есть мысли, как мне справиться с этой проблемой?