Учитывая веб-страницу новостной статьи (из любого крупного источника новостей, такого как Times или Bloomberg), я хочу определить основной контент статьи на этой странице и выбросить другие элементы разного типа, такие как реклама, меню, боковые панели, комментарии пользователей.
Какой общий способ сделать это будет работать на большинстве крупных новостных сайтов?
Какие хорошие инструменты или библиотеки для интеллектуального анализа данных? (предпочтительно на основе Python)