xdmp: word-convert () с DOCX в MarkLogic - PullRequest
0 голосов
/ 17 мая 2018

Я пытаюсь преобразовать мой двоичный документ (файл DOCX), используя функцию xdmp: word-convert (), которая выдает мне следующую ошибку.

Файл, который вы пытаетесь преобразовать, имеет неправильный формат. DHF-INVFILE: xdmp: word-convert (fn: doc ("/ content / aplc / binary / 13599668870066633077.docx"), "13599668870066633077.docx", <параметры xmlns: tidy = "xdmp: tidy" xmlns = "xdmp: word-convert "> true ... ) - файл, который вы пытаетесь преобразовать, имеет неправильный формат. вход = / вар / Opt / MarkLogic / Temp / 0b71d7278e82c553 / toconv.doc

Мой код выглядит следующим образом

xdmp:word-convert(
     $xml-input,
     fn:concat(xdmp:hash64("Sample.docx"),".docx"),
     <options xmlns="xdmp:word-convert" xmlns:tidy="xdmp:tidy">
          <tidy>true</tidy>
          <tidy:clean>yes</tidy:clean>
          <tidy:drop-empty-paras>yes</tidy:drop-empty-paras>
          <tidy:drop-font-tags>yes</tidy:drop-font-tags>
          <tidy:hide-comments>yes</tidy:hide-comments>
          <tidy:output-html>no</tidy:output-html>
          <tidy:output-xhtml>no</tidy:output-xhtml>
          <tidy:output-xml>yes</tidy:output-xml>
          <compact>true</compact>
      </options>)

, где тот же код прекрасно работает с расширениями .doc

Если xdmp: word-convert () не будет работать с файлом DOCX, какие будут другие возможные функции API, которые будут выполнять аналогичную работу, кроме xdmp: document-filter.

1 Ответ

0 голосов
/ 17 мая 2018

Документы на xdmp:word-convert говорят:

Не конвертирует документы Microsoft Office 2007 и более поздние версии.

Для более поздних документов Office вы можете изучить использование CPF с конвейерами Office OpenXML Extract, как также упоминалось здесь: https://stackoverflow.com/a/11248525/918496

НТН!

...