Внутренние ссылки не работают Преобразование .HTM в .pdf - PullRequest
0 голосов
/ 07 февраля 2019

Я пытаюсь преобразовать файл .htm с сайта SEC в .pdf и заставить работать внутренние ссылки.Я успешно конвертирую в .pdf, используя wkhtmltopdf, но все внутренние ссылки указывают мне на первую страницу.

wkhtmltopdf https://www.sec.gov/Archives/edgar/data/1594617/000119312514117433/d640354ds1a.htm test.pdf

1 Ответ

0 голосов
/ 28 февраля 2019

Похоже, что проблема с wkhtmltopdf связана с тегами привязки, которые не имеют содержимого.Существует PR , который был открыт в 2017 году для его решения, но он остается открытым.

Как выяснилось, ваш документ действительно имеет пустые теги привязки, так что это, вероятно, основная причина:

<A NAME="toc640354_15"></A>

Я бы предложил использовать chrome для создания pdf с флагами --headless и --print-to-pdf.Из каталога установки chrome выполните:

chrome.exe --headless --disable-gpu --print-to-pdf="C:\path\to\file.pdf" https://www.sec.gov/Archives/edgar/data/1594617/000119312514117433/d640354ds1a.htm

Убедитесь, что вы указали абсолютный путь к выходному файлу или он не работает по какой-либо причине.Команда немедленно вернется без какого-либо вывода или указания на успех.Дайте ему несколько секунд на извлечение, рендеринг и запись файла.

Я проверил ваш документ, и ссылки работают отлично.

...