Как мне получить данные из разных источников новостей? - PullRequest
0 голосов
/ 14 июля 2009

Я работаю над бесплатным веб-приложением, которое будет анализировать главные новости в течение дня и предоставлять статистику. Большинство новостных веб-сайтов предлагают RSS-каналы, которые прекрасно работают для того, чтобы узнать, какие истории следует извлечь. Однако проблемы возникают при попытке получить полную новостную статью с самого новостного сайта. На данный момент у меня есть отдельные NewsSource классы для каждого источника (CNN, NY Times и т. Д.), Которые читают соответствующие RSS-каналы, следуют по каждой ссылке и удаляют тело. Это кажется утомительным и очень неуправляемым, когда новостной сайт решает изменить структуру HTML своих статей.

Существует ли служба (желательно бесплатная), которая уже объединяет несколько источников новостей с полным содержанием статьи (а не только с кратким изложением)? Если нет, есть ли у вас какие-либо предложения по работе с несколькими источниками с различными структурами HTML, которые могут быть изменены без предварительного уведомления?

1 Ответ

0 голосов
/ 22 сентября 2011

Использование удобочитаемость . Найдите порт читабельности для используемого вами языка.

...