Каковы хорошие методы для получения списка ключевых слов для главных новостей дня - PullRequest
1 голос
/ 14 ноября 2009

Я работаю над приложением, в котором я хотел бы получить список главных новостей за день из какого-либо источника (например, BBC) и проанализировать их по ключевым словам, которые я могу использовать в своих данных тегов. Очевидно, что существует множество веб-сервисов и API-интерфейсов, но что бы вы посоветовали в качестве хороших маршрутов.

Одна вещь, которую я рассматривал, - это периодически загружать RSS-ленту BBC News и анализировать содержимое с помощью экстрактора терминов Yahoo. Мне кажется, это хорошее решение, но термин «экстрактор» предназначен только для некоммерческого использования, а мое приложение является коммерческим.

YQL выглядит многообещающе, но я не уверен, насколько легко будет сжать данные до ключевых слов.

Приветствуются все предложения, как для источника новостей, так и для извлечения ключевых слов / тегов, а также для коммерческого и некоммерческого использования.

Обновление:

Основываясь на предложении ответа, вот YQL для получения ключевых слов из лучших британских новостных магазинов на BBC:

select content 
from search.termextract 
where context in (
    select title 
    from rss 
    where url='http://newsrss.bbc.co.uk/rss/newsonline_uk_edition/front_page/rss.xml' 
) 

, который возвращает что-то вроде:

<?xml version="1.0" encoding="UTF-8"?>
<query xmlns:yahoo="http://www.yahooapis.com/v1/base.rng" yahoo:count="46" yahoo:created="2009-11-13T11:49:05Z" yahoo:lang="en-US" yahoo:updated="2009-11-13T11:49:05Z" yahoo:uri="http://query.yahooapis.com/v1/yql?q=select+content+from+search.termextract+where+context+in+%28select+title+from+rss+where+url%3D%27http%3A%2F%2Fnewsrss.bbc.co.uk%2Frss%2Fnewsonline_uk_edition%2Ffront_page%2Frss.xml%27+%29">
    <results>
        <Result xmlns="urn:yahoo:cate">new york</Result>
        <Result xmlns="urn:yahoo:cate">bolt gun</Result>
        <Result xmlns="urn:yahoo:cate">stalker</Result>
        <Result xmlns="urn:yahoo:cate">russia</Result>
        <Result xmlns="urn:yahoo:cate">moon</Result>
        <Result xmlns="urn:yahoo:cate">hijack</Result>
        <Result xmlns="urn:yahoo:cate">yacht</Result>
        <Result xmlns="urn:yahoo:cate">balloon</Result>
        <Result xmlns="urn:yahoo:cate">parents</Result>
        <Result xmlns="urn:yahoo:cate">bruce forsyth</Result>
        <Result xmlns="urn:yahoo:cate">flu</Result>

В конечном счете, я не думаю, что смогу использовать это в коммерческом приложении, хотя из-за ограничений на термин служба извлечения.

1 Ответ

1 голос
/ 14 ноября 2009

Вы говорите, что YQL выглядит многообещающе, так что я уверен, что вы уже исследовали это. Вы можете использовать два сервиса YQL вместе. search.termextract даст вам ключевые слова из запроса, сделанного с search.news

select * from search.termextract where context in (select abstract from search.news where query="election")

Вы должны были бы поиграться, чтобы часть запроса могла относиться к последним новостям.

С здесь : «Служба Term Extraction ограничена 5000 запросами на IP-адрес в день и некоммерческим использованием. См. Информацию об ограничении скорости».

...