Я работаю с кучей текстовых документов, в которых у меня есть текст (слова), которые выделены (используя цветовые коды, например, желтый, синий, серый), теперь я хочу извлечь выделенные слова, связанные с каждым цветом.Я программирую на Python.Вот что я сделал в настоящее время:
открыл слово document с помощью [python-docx][1]
и затем попал в тег <w:r>
, который содержит токены (слова) в документе.Я использовал следующий код:
#!/usr/bin/env python2.6
# -*- coding: ascii -*-
from docx import *
document = opendocx('test.docx')
words = document.xpath('//w:r', namespaces=document.nsmap)
for word in words:
print word
Теперь я застрял в той части, где я проверяю каждое слово, имеет ли оно тег <w:highlight>
, и извлекаю из него код цвета и соответствует ли он желтому печатному тексту.внутри <w:t>
тег.Я буду очень признателен, если кто-то может указать мне на извлечение слова из проанализированного файла.