Я работаю над бесплатным веб-приложением, которое будет анализировать главные новости в течение дня и предоставлять статистику. Большинство новостных веб-сайтов предлагают RSS-каналы, которые прекрасно работают для того, чтобы узнать, какие истории следует извлечь. Однако проблемы возникают при попытке получить полную новостную статью с самого новостного сайта. На данный момент у меня есть отдельные NewsSource классы для каждого источника (CNN, NY Times и т. Д.), Которые читают соответствующие RSS-каналы, следуют по каждой ссылке и удаляют тело. Это кажется утомительным и очень неуправляемым, когда новостной сайт решает изменить структуру HTML своих статей.
Существует ли служба (желательно бесплатная), которая уже объединяет несколько источников новостей с полным содержанием статьи (а не только с кратким изложением)? Если нет, есть ли у вас какие-либо предложения по работе с несколькими источниками с различными структурами HTML, которые могут быть изменены без предварительного уведомления?