Извлечение URL из таблиц docx - PullRequest
0 голосов
/ 12 ноября 2018

Я сейчас довольно сильно застрял.

Я написал парсер в python-3, используя библиотеку python-docx, чтобы извлечь все таблицы, найденные в существующем .docx, и сохранить его в структуре данных python.

Пока все хорошо.Работает как надо.Теперь у меня проблема в том, что в этих таблицах есть гиперссылки, которые мне определенно нужны!Из-за структуры (внизу xml) библиотека docx не улавливает их.Ни URL, ни отображаемый текст не указаны.Я обнаружил, что многие люди испытывают схожие опасения по этому поводу, но большинство из них, похоже, не сталкивались с этой «дилеммой».

Я думал о распаковке .docx и сканировании документа _ref на предмет соответствующих «ридов» и заполненияфактические данные, которые у меня есть со ссылками, найденными в _ref xml.

В любом случае, кажется, это серьезно утомительно, поэтому мне было интересно, есть ли более питонский способ сделать это или кто-то получилхороший совет, как решить эту проблему?

...