Библиотека Yahoo BOSS Python, ExpatError - PullRequest
0 голосов
/ 14 сентября 2009

Я пытался установить фреймворк Yahoo BOSS, но у меня возникают проблемы при работе с примерами.Примеры 1, 2, 5 и 6 работают, но 3 и 4 дают ошибки Expat.Вот вывод из ex3.py:

gpython examples/ex3.py
    examples/ex3.py:33: Warning: 'as' will become a reserved keyword in Python 2.6
Traceback (most recent call last):
  File "examples/ex3.py", line 27, in <module>
    digg = db.select(name="dg", udf=titlef, url="http://digg.com/rss_search?search=google+android&area=dig&type=both&section=news")
  File "/usr/lib/python2.5/site-packages/yos/yql/db.py", line 214, in select
    tb = create(name, data=data, url=url, keep_standards_prefix=keep_standards_prefix)
  File "/usr/lib/python2.5/site-packages/yos/yql/db.py", line 201, in create
    return WebTable(name, d=rest.load(url), keep_standards_prefix=keep_standards_prefix)
  File "/usr/lib/python2.5/site-packages/yos/crawl/rest.py", line 38, in load
    return xml2dict.fromstring(dl)
  File "/usr/lib/python2.5/site-packages/yos/crawl/xml2dict.py", line 41, in fromstring
    t = ET.fromstring(s)
  File "/usr/lib/python2.5/xml/etree/ElementTree.py", line 963, in XML
    parser.feed(text)
  File "/usr/lib/python2.5/xml/etree/ElementTree.py", line 1245, in feed
    self._parser.Parse(data, 0)
    xml.parsers.expat.ExpatError: syntax error: line 1, column 0

Похоже, что оба примера терпят неудачу при попытке запроса Digg.com.Вот запрос, который построен в коде ex3.py:

diggf = lambda r: {"title": r["title"]["value"], "diggs": int(r["diggCount"]["value"])}
digg = db.select(name="dg", udf=diggf, url="http://digg.com/rss_search?search=google+android&area=dig&type=both&section=news")

Ответы [ 2 ]

1 голос
/ 24 марта 2010

Проблема в строке поиска digg. Это должно быть "s =". Не "search ="

0 голосов
/ 14 сентября 2009

Я считаю, что это должно быть ошибкой в ​​примере: он получает результат в формате JSON (действительно, если вы скопируете и вставите этот URL в браузер, вы загрузите файл search.json с именами файлов, который начинается с

{"results":[{"profile_image_url":
"http://a3.twimg.com/profile_images/255524395/KEN_OMALLEY_REVISED_normal.jpg",
"created_at":"Mon, 14 Sep 2009 14:52:07 +0000","from_user":"twilightlords",

т.е. совершенно нормальный JSON; но затем вместо анализа его с помощью таких модулей, как json или simplejson, он пытается проанализировать его как XML - и, очевидно, эта попытка не удалась.

Я полагаю, что исправление (которое, вероятно, должно быть доведено до сведения тех, кто поддерживает этот код, чтобы они могли его включить), заключается в том, чтобы либо запросить XML вместо вывода JSON, либо проанализировать полученный JSON соответствующими средствами вместо пытаясь рассматривать его как XML (не знаю, как лучше всего реализовать любое изменение, поскольку я не знаком с этим кодом).

...