селен и л xml - как установить html? - PullRequest
0 голосов
/ 17 февраля 2020

У меня есть скрипт, который анализирует документ и изменяет значения формы с помощью l xml. Теперь я хочу использовать селен, чтобы перейти на страницу и сделать это.

К сожалению, селен, кажется, недостаточно продвинут, поддерживает некоторые из вещей, которые я делаю, например, в l xml " если 'attrName' в tag.attrib "

Тогда я сказал:" Ага! Но Селен предоставляет webdriver.page_source, где я могу получить html! " Да, вроде ... Я могу получить это, а затем проанализировать это с помощью l xml ... но досадно, что page_source не доступен для записи, поэтому я не могу сохранить свои изменения!

Я все еще чувствую, что я на правильном пути с этим, но есть ли способ, как я могу записать измененный html обратно в браузер?

ОБНОВЛЕНИЕ: Я попытался несколько способов переписать все содержимое страницы, но firefox webdriver начал генерировать исключения безопасности, как будто ему не нравилось то, что я пытался сделать. Ниже я опубликую альтернативу, которую я использовал вместо этого.

1 Ответ

0 голосов
/ 19 февраля 2020

В итоге я создал l-1003 * -подобный промежуточный класс. Это реализует только те функции, которые мне нужны, но, тем не менее, я думал, что поделюсь с ними как отправная точка для других, пытающихся сделать то же самое.

import lxml.etree
import collections.abc


class AttribWrapper(collections.abc.MutableMapping):
    """
    Make something that acts like a dict to use as a mock lxml.etree.element attrib value

    see also:
        https://docs.python.org/3/reference/datamodel.html?emulating-container-types#emulating-container-types
    """
    def __init__(self,seleniumTag):
        self.seleniumTag=seleniumTag
        while not hasattr(seleniumTag,'execute_script'):
            seleniumTag=seleniumTag.parent
        self.webdriver=seleniumTag

    def hasAttribute(self,attrName):
        """
        determine if a tag has an attribute
        """
        try:
            val=self.seleniumTag.get_attribute(attrName)
        except Exception:
            return False
        return val is not None

    def getAttribute(self,attrName,default=None):
        """
        get a tag's attribute or default if not present
        """
        try:
            return self.seleniumTag.get_attribute(attrName)
        except Exception:
            pass
        return default

    def setAttribute(self,attrName,attrValue):
        """
        get a tag's attribute
        """
        self.webdriver.execute_script("arguments[0].setAttribute(arguments[1],arguments[2]);",self.seleniumTag,attrName,attrValue);

    def __getitem__(self,key):
        if key not in self.keys():
            raise KeyError()
        return self.getAttribute(key)

    def __setitem__(self,key,value):
        self.setAttribute(key,value)

    def __delitem__(self,key):
        self.webdriver.execute_script('arguments[0].attributes.removeNamedItem("%s");'%key,self.seleniumTag)

    def __iter__(self):
        items=[]
        for k in self.keys():
            v=self[k]
            items.append((k,v))
        return self.keys().__iter__()

    def __len__(self):
        return self.webdriver.execute_script('return arguments[0].attributes.length',self.seleniumTag)

    def keys(self):
        n=self.webdriver.execute_script('return arguments[0].attributes.length',self.seleniumTag)
        names=[]
        for idx in range(n):
            result=self.webdriver.execute_script('return arguments[0].attributes.item(%d).nodeName'%idx,self.seleniumTag)
            names.append(result)
        return names

    def __repr__(self):
        ret=[]
        for k,v in self.items():
            ret.append('("%s":"%s")'%(k,v))
        return "{%s}"%(', '.join(ret))


class LikeEtreeElement:

    def __init__(self,seleniumTag):
        self.seleniumTag=seleniumTag
        self.attrib=AttribWrapper(seleniumTag)
        while not hasattr(seleniumTag,'execute_script'):
            seleniumTag=seleniumTag.parent
        self.webdriver=seleniumTag

    @property
    def tag(self):
        return self.seleniumTag.tag_name

    def getchildren(self):
        """
        get all child elements
        (NOTE: this will dip into the html every single time just
            in case things have changed.)
        """
        return self.seleniumTag.find_elements_by_xpath('/*')

    @property     
    def innerHTML(self):
        return self.webdriver.execute_script('return arguments[0].innerHTML',self.seleniumTag)
    @innerHTML.setter
    def innerHTML(self,value):
        value=str(value).replace('\\\\','\\').replace('\n','\\n').replace('"','\\"')
        return self.webdriver.execute_script('arguments[0].innerHTML="%s"'%(value),self.seleniumTag)

    def __getitem__(self,idx):
        return self.getchildren()[idx]

    def __iter__(self):
        return self.getchildren().__iter__()

    def __len__(self):
        return len(self.getchildren())
...