Pdf2htmlEx: HTML содержит изображения, как я могу получить вместо графики графику вместо изображений? - PullRequest
0 голосов
/ 25 октября 2018

Я попробовал каждую команду, найденную в документации, как я могу получить только текстовую часть в качестве вывода, а не все изображения?

https://github.com/coolwanglu/pdf2htmlEX/wiki/Command-Line-Options.

1 Ответ

0 голосов
/ 31 октября 2018

Я не уверен, что вы пытаетесь достичь, поскольку вопрос и детали вопроса кажутся противоречивыми, но есть варианты разбить графику и текст на отдельные файлы:

--embed <string>
   --embed-css <0|1> (Default: 1)
   --embed-font <0|1> (Default: 1)
   --embed-image <0|1> (Default: 1)
   --embed-javascript <0|1> (Default: 1)
   --embed-outline <0|1> (Default: 1)
          Specify which elements should be embedded into the  output  HTML
          file.

          If  switched  off,  separated files will be generated along with
          the HTML file for the corresponding elements.

          --embed accepts a string as argument. Each letter of the  string
          must  be  one  of  `cCfFiIjJoO`, which corresponds to one of the
          --embed-*** switches. Lower case letters for 0  and  upper  case
          letters  for  1.  For  example,  `--embed  cFIJo` means to embed
          everything but CSS files and outlines.

   --split-pages <0|1> (Default: 0)
          If turned on, the content of each page is stored in a  separated
          file.

          This  switch is useful if you want pages to be loaded separately
          & dynamically -- a supporting server might be necessary.

          Also see --page-filename.

Так что если выиспользуйте опции --split-pages 1 и --embed-image 0, тогда у вас есть одна HTML-страница на страницу PDF, которая не включает встроенные изображения.

Если это не то, что вам нужно, пожалуйста, включите дополнительную информацию в свой вопрос.

...