Python 2.7 в Google App Engine, не может использовать lxml.etree - PullRequest
6 голосов
/ 15 ноября 2011

Я пытался использовать html5lib с lxml на python 2.7 в google app engine. Но когда я запускаю следующий код, он выдает мне сообщение «NameError: глобальное имя« etree »не определено». Разве нельзя использовать lxml.etree на движке приложений Google? или я что-то упустил?

app.yaml

application: testsite
version: 1
runtime: python27
api_version: 1
threadsafe: false

handlers:
- url: /.*
  script: index.py   

libraries:
- name: lxml
  version: "2.3"  # I thought this would allow me to use lxml.etree

index.py

from testhandler import TestHandler
application = webapp.WSGIApplication([('/', TestHandler)], debug=True)

testhandler.py

import urllib2
import html5lib
from html5lib import treebuilders
try:
    from lxml import etree
    print("running with lxml.etree")
except ImportError:
    try:
        # Python 2.5
        import xml.etree.cElementTree as etree
        print("running with cElementTree on Python 2.5+")
    except ImportError:
        try:
            # Python 2.5
            import xml.etree.ElementTree as etree
            print("running with ElementTree on Python 2.5+")
        except ImportError:
            try:
                # normal cElementTree install
                import cElementTree as etree
                print("running with cElementTree")
            except ImportError:
                try:
                    # normal ElementTree install
                    import elementtree.ElementTree as etree
                    print("running with ElementTree")
                except ImportError:
                    print("Failed to import ElementTree from any known place")

from google.appengine.ext import webapp

class TestHandler(webapp.RequestHandler):
    def get(self):
        f = urllib2.urlopen("http://www.yahoo.com/").read()
        doc = html5lib.parse(f, treebuilder='lxml')
        elems = doc.xpath("//*[local-name() = 'a']")
        self.response.out.write(len(elems))

ошибка

<code>running with cElementTree on Python 2.5+
Status: 500 Internal Server Error
Content-Type: text/html; charset=utf-8
Cache-Control: no-cache
Expires: Fri, 01 Jan 1990 00:00:00 GMT
Content-Length: 769

<pre>Traceback (most recent call last):
  File &quot;/usr/local/bin/google_appengine/google/appengine/ext/webapp/_webapp25.py&quot;,     line 701, in __call__
handler.get(*groups)
  File &quot;/home/test/testhandler.py&quot;, line 38, in get
    parser = html5lib.HTMLParser(tree= treebuilders.getTreeBuilder('lxml'))
  File &quot;/home/test/html5lib/html5parser.py&quot;, line 68, in __init__
    self.tree = tree(namespaceHTMLElements)
  File &quot;/home/test/html5lib/treebuilders/etree_lxml.py&quot;, line 176, in __init__
    builder = etree_builders.getETreeModule(etree, fullTree=fullTree)
NameError: global name 'etree' is not defined

ADD

Нет, я пробовал несколько способов создать объект документа, но не повезло. Один из способов, я попытался импортировать from lxml.html import document_fromstring, и это дает мне эту ошибку.

Traceback (most recent call last):
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 4143, in _HandleRequest
    self._Dispatch(dispatcher, self.rfile, outfile, env_dict)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 4049, in _Dispatch
    base_env_dict=env_dict)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 616, in Dispatch
    base_env_dict=base_env_dict)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 3120, in Dispatch
    self._module_dict)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 3024, in ExecuteCGI
    reset_modules = exec_script(handler_path, cgi_path, hook)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2887, in ExecuteOrImportScript
    exec module_code in script_module.__dict__
  File "/home/yoo/eclipse_workspace/website_checker/src/index.py", line 5, in <module>
    from handlers.updatecheck import UpdateCheckHandler
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2503, in load_module
    return self.FindAndLoadModule(submodule, fullname, search_path)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2375, in FindAndLoadModule
    description)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2318, in LoadModuleRestricted
    description)
  File "/home/test/updatecheck.py", line 4, in <module>
    from lxml.html import document_fromstring
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2503, in load_module
    return self.FindAndLoadModule(submodule, fullname, search_path)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2375, in FindAndLoadModule
    description)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 1538, in Decorate
    return func(self, *args, **kwargs)
  File "/usr/local/bin/google_appengine/google/appengine/tools/dev_appserver.py", line 2318, in LoadModuleRestricted
    description)
  File "/usr/lib/python2.7/dist-packages/lxml/html/__init__.py", line 12, in <module>
    from lxml import etree
ImportError: cannot import name etree

В соответствии с ошибкой, кажется, что движок приложения по какой-то причине не позволяет мне загрузить модуль etree. Я хотел использовать xpath с lxml, но я не могу тратить много времени на то, чтобы понять, что здесь происходит, и у меня тоже недостаточно знаний о python. Так что я бы попробовал найти способ с «простой версией».

f = urllib2.urlopen("http://www.yahoo.com/").read()
p = html5lib.HTMLParser()
doc = p.parse(f)
# do something with doc.childNodes
self.response.out.write(len(doc.childNodes))  

Не совсем хороший способ, но, по крайней мере, он работал, когда я тестировал на live google app engine.

Ответы [ 4 ]

1 голос
/ 27 января 2013

В Windows у меня была эта проблема, и это связано с тем, что в дистрибутив python27 не входит lxml. Вы можете использовать скрипт easy_install, но вам придется скомпилировать исходный код, который доставил мне неприятности.

Используя этот пост, я нашел на форумах Google:

https://groups.google.com/forum/?fromgroups=#!topic/comp.lang.python/Q8YeOIbn5Ds

Однако, если вы хотите избавить себя от боли, пытаясь заставить его строить из исходного кода, просто установите предварительно скомпилированный двоичный файл, например, тот, который доступен из: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

Просто загрузите исполняемый файл с вышеуказанного веб-сайта и запустите * .exe, и он остановит весь необходимый код.

1 голос
/ 18 ноября 2011

Вы установили lxml локально?У меня была такая же ошибка раньше - импорт не удался.Вы можете скачать lxml здесь: http://pypi.python.org/pypi/lxml/

lxml работает с GAE, и это здорово.Но это реальное отсутствие какой-либо документации или примеров по этому поводу прямо сейчас.

0 голосов
/ 21 марта 2015

установка с пунктами: pip install lxml

0 голосов
/ 19 декабря 2011

Попробуйте

import lxml

в верхней части вашего тестовщика

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...