Я работаю над приложением, в котором я хотел бы получить список главных новостей за день из какого-либо источника (например, BBC) и проанализировать их по ключевым словам, которые я могу использовать в своих данных тегов. Очевидно, что существует множество веб-сервисов и API-интерфейсов, но что бы вы посоветовали в качестве хороших маршрутов.
Одна вещь, которую я рассматривал, - это периодически загружать RSS-ленту BBC News и анализировать содержимое с помощью экстрактора терминов Yahoo. Мне кажется, это хорошее решение, но термин «экстрактор» предназначен только для некоммерческого использования, а мое приложение является коммерческим.
YQL выглядит многообещающе, но я не уверен, насколько легко будет сжать данные до ключевых слов.
Приветствуются все предложения, как для источника новостей, так и для извлечения ключевых слов / тегов, а также для коммерческого и некоммерческого использования.
Обновление:
Основываясь на предложении ответа, вот YQL для получения ключевых слов из лучших британских новостных магазинов на BBC:
select content
from search.termextract
where context in (
select title
from rss
where url='http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml'
)
, который возвращает что-то вроде:
<?xml version="1.0" encoding="UTF-8"?>
<query xmlns:yahoo="http://www.yahooapis.com/v1/base.rng" yahoo:count="46" yahoo:created="2009-11-13T11:49:05Z" yahoo:lang="en-US" yahoo:updated="2009-11-13T11:49:05Z" yahoo:uri="http://query.yahooapis.com/v1/yql?q=select+content+from+search.termextract+where+context+in+%28select+title+from+rss+where+url%3D%27http%3A%2F%2Fnewsrss.bbc.co.uk%2Frss%2Fnewsonline_uk_edition%2Ffront_page%2Frss.xml%27+%29">
<results>
<Result xmlns="urn:yahoo:cate">new york</Result>
<Result xmlns="urn:yahoo:cate">bolt gun</Result>
<Result xmlns="urn:yahoo:cate">stalker</Result>
<Result xmlns="urn:yahoo:cate">russia</Result>
<Result xmlns="urn:yahoo:cate">moon</Result>
<Result xmlns="urn:yahoo:cate">hijack</Result>
<Result xmlns="urn:yahoo:cate">yacht</Result>
<Result xmlns="urn:yahoo:cate">balloon</Result>
<Result xmlns="urn:yahoo:cate">parents</Result>
<Result xmlns="urn:yahoo:cate">bruce forsyth</Result>
<Result xmlns="urn:yahoo:cate">flu</Result>
В конечном счете, я не думаю, что смогу использовать это в коммерческом приложении, хотя из-за ограничений на термин служба извлечения.