Я провел много исследований, чтобы выяснить, как лучше всего написать код приложения, чтобы получить основной контент статьи практически с любой веб-страницы HTML. У меня есть программа на C, которая использует libxml2 для анализа XML, но я натолкнулся на Alchemy API, который, кажется, делает то, что я хочу.
Тем не менее, он имеет только онлайн-API, и я хотел оставить приложение внутри компании, не полагаясь на внешние вызовы.
Так у кого-нибудь есть советы? Я надеялся на автономную альтернативу, которая делает то, что может делать API Alchemy (платный / неоплачиваемый).
Моя альтернатива может состоять в том, чтобы просто анализировать HTML и использовать методы NLP (Natural Language Processing) и другие методы, чтобы получить основной контент статьи. Типы веб-сайтов, которые будут использоваться, включают веб-сайты с разделом новостей или блогом.