API для поиска новостей по годам - PullRequest
0 голосов
/ 02 января 2012

Я хотел бы написать скрипт на Python, который получит, например, 100 новостей / текстов за 2011, 2010, 2009 и т. Д. По данной теме.

Мне нужен поисковый API , который будет отвечать следующим требованиям:

  1. Доступен бесплатно, предоставляется в виде веб-службы.
  2. Возвращает заданную суммуобъектов.
  3. Фильтры по дате.Точно, позволяет получать объекты из указанных лет.
  4. Возвращение должно содержать довольно длинный текст (т.е. более 100 слов), который связан с данным ключевым словом.
  5. Этот текст легко извлечь извесь ответ.

Например, я попробовал с API веб-поиска Google :

8 первых результатов 2007 года:
https://ajax.googleapis.com/ajax/services/search/web?q=Obama+daterange%3A2454102-2454467&start=0&rsz=8&v=1.0

Пункты 1 и 2 выполнены.Добавлена ​​фильтрация по годам с не очень популярным datarange: оператором поиска.Пункт 5 в порядке, потому что ответом является JSON.Проблема с пунктом 4, потому что он возвращает только краткое содержание и заголовок.У меня есть URL страницы с полным содержимым, но затем (после другого запроса GET) трудно извлечь это содержимое из всего HTML-документа.

Знаете ли вы такой API?Или, может быть, у вас есть другая идея, как решить эту проблему?

1 Ответ

1 голос
/ 04 января 2012

The Guardian (британская газета) довольно хороши, когда дело доходит до предоставления своих данных.У них даже есть интеграция Google Doc.Проверьте http://www.guardian.co.uk/open-platform из

Нужны ли вам данные для передачи в реальном времени, или простой набор данных соответствует вашим потребностям?

...