Как найти элементы по полю 'id' в SVG-файле, используя Python - PullRequest
3 голосов
/ 02 марта 2010

Ниже приведена выдержка из файла .svg (который является xml):

   <text
       xml:space="preserve"
       style="font-size:14.19380379px;font-style:normal;font-variant:normal;font-weight:normal;font-stretch:normal;text-align:start;line-height:125%;writing-mode:lr-tb;text-anchor:start;fill:#000000;fill-opacity:1;stroke:none;font-family:DejaVu Sans Mono;-inkscape-font-specification:DejaVu Sans Mono"
       x="109.38555"
       y="407.02847"
       id="libcode-00"
       sodipodi:linespacing="125%"
       inkscape:label="#text4638"><tspan
         sodipodi:role="line"
         id="tspan4640"
         x="109.38555"
         y="407.02847">12345678</tspan></text>

Я изучаю Python и не знаю, как найти все такие text элементы, у которых поле id равно libcode-XX, где XX - число.

Я загрузил этот файл .svg, используя парсер minidom, и попытался найти элементы, используя getElementById. Однако я получаю None результат.

    svgTemplate = minidom.parse(svgFile)
    print svgTemplate
    print svgTemplate.getElementById('libcode-00')

Переходя к другому такому вопросу, я попытался использовать setIdAttribute('id') на svgTemplate объекте без удачи.

Итог: пожалуйста, дайте подсказку для умного способа извлечь все эти text элементы, которые имеют id s в форме libcode-XX. После этого не должно быть проблем с получением tspan текста и заменой его сгенерированным содержимым.

Ответы [ 3 ]

10 голосов
/ 02 марта 2010

Извините, я не знаю, как обходить минидом. Кроме того, мне пришлось найти объявления пространства имен в образце svg-документа, чтобы ваш фрагмент мог загрузить.

Я лично использую lxml.etree. Я бы порекомендовал вам использовать XPATH для адресации частей вашего XML-документа. Он довольно мощный, и здесь есть помощь, если вы боретесь.

На SO есть много ответов о XPATH и etree. Я написал несколько.

from lxml import etree
data = """
 <svg
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:cc="http://web.resource.org/cc/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:svg="http://www.w3.org/2000/svg"
    xmlns="http://www.w3.org/2000/svg"
    xmlns:xlink="http://www.w3.org/1999/xlink"
    xmlns:sodipodi="http://sodipodi.sourceforge.net/DTD/sodipodi-0.dtd"
    xmlns:inkscape="http://www.inkscape.org/namespaces/inkscape"
    width="50"
    height="25"
    id="svg2"
    sodipodi:version="0.32"
    inkscape:version="0.45.1"
    version="1.0"
    sodipodi:docbase="/home/tcooksey/Projects/qt-4.4/demos/embedded/embeddedsvgviewer/files"
    sodipodi:docname="v-slider-handle.svg"
    inkscape:output_extension="org.inkscape.output.svg.inkscape">
    <text
       xml:space="preserve"
       style="font-size:14.19380379px;font-style:normal;font-variant:normal;font-weight:normal;font-stretch:normal;text-align:start;line-height:125%;writing-mode:lr-tb;text-anchor:start;fill:#000000;fill-opacity:1;stroke:none;font-family:DejaVu Sans Mono;-inkscape-font-specification:DejaVu Sans Mono"
       x="109.38555"
       y="407.02847"
       id="libcode-00"
       sodipodi:linespacing="125%"
       inkscape:label="#text4638"><tspan
         sodipodi:role="line"
         id="tspan4640"
         x="109.38555"
         y="407.02847">12345678</tspan></text>
    </svg>
"""

nsmap = {
    'sodipodi': 'http://sodipodi.sourceforge.net/DTD/sodipodi-0.dtd',
    'cc': 'http://web.resource.org/cc/',
    'svg': 'http://www.w3.org/2000/svg',
    'dc': 'http://purl.org/dc/elements/1.1/',
    'xlink': 'http://www.w3.org/1999/xlink',
    'rdf': 'http://www.w3.org/1999/02/22-rdf-syntax-ns#',
    'inkscape': 'http://www.inkscape.org/namespaces/inkscape'
    }


data = etree.XML(data)

# All svg text elements
>>> data.xpath('//svg:text',namespaces=nsmap)
[<Element {http://www.w3.org/2000/svg}text at b7cfc9dc>]
# All svg text elements with id="libcode-00"
>>> data.xpath('//svg:text[@id="libcode-00"]',namespaces=nsmap)
[<Element {http://www.w3.org/2000/svg}text at b7cfc9dc>]
# TSPAN child elements of text elements with id="libcode-00"
>>> data.xpath('//svg:text[@id="libcode-00"]/svg:tspan',namespaces=nsmap)
[<Element {http://www.w3.org/2000/svg}tspan at b7cfc964>]
# All text elements with id starting with "libcode"
>>> data.xpath('//svg:text[fn:startswith(@id,"libcode")]',namespaces=nsmap)
[<Element {http://www.w3.org/2000/svg}text at b7cfcc34>]
# Iterate text elements, access tspan child
>>> for elem in data.xpath('//svg:text[fn:startswith(@id,"libcode")]',namespaces=nsmap):
...     tp = elem.xpath('./svg:tspan',namespaces=nsmap)[0]
...     tp.text = "new text"

open("newfile.svg","w").write(etree.tostring(data))
0 голосов
/ 01 марта 2012

Немного добавив к прекрасному примеру MattH, когда вы используете xpath и знаете пространство имен, вы можете делать такие вещи, как

pub_name = data.xpath('//dc:publisher/cc:Agent/dc:title',
                            namespaces=nsmap)[0].text

Это даст прямой доступ к тексту тега элемента, который вы хотите.

0 голосов
/ 02 марта 2010

Работает ли это, если вы замените 'id' на 'xml: id' ?

Если minidom не знает svg, он может трактовать атрибут 'id' как любой другой атрибут, вместо того, чтобы иметь тип ID. Соответствующая реализация svg распознает атрибут 'id' в содержимом svg как идентификатор типа, а реализация xml, которая загружает внешние DTD, также должна правильно его распознавать, если файл помечен соответствующим образом. Загрузка внешних DTD не обязательна в XML, поэтому правильным способом исправить это было бы то, чтобы синтаксический анализатор знал svg.

Определение 'id' в SVG 1.1 DTD: http://www.w3.org/TR/SVG11/svgdtd.html#DTD.1.4

...