Как исправить предупреждения о «пропущенных символах» при конвертации из docx в pdf с использованием Pando c и LaTeX? - PullRequest
1 голос
/ 05 марта 2020

Цель

У меня есть несколько тысяч файлов .docx на кхмерском языке, и я хотел бы преобразовать их в .pdf формат, используя Pando c.

Фон

Я установил Pando c с помощью MacPorts. Pando c требует LaTeX для преобразования PDF, поэтому я установил MacTeX . Похоже, что установка прошла успешно, и я смог преобразовать файлы Engli sh -language .docx в .pdf без затруднений.

Попытка 1

Когда я пытаюсь преобразовать файл на кхмерском языке (вы можете найти пример на https://briancroxall.net/pandoc/transcription.docx) в PDF, я использую следующую команду:

pandoc transcription.docx  -s -o transcript.pdf

Я получаю следующую ошибку:

Error producing PDF.
! Package inputenc Error: Unicode character អ (U+17A2)
(inputenc)                not set up for use with LaTeX.

See the inputenc package documentation for explanation.
Type  H <return>  for immediate help.
 ...                                              

l.64 ...�នៅសម័យប៉ុល ពត។}

Try running pandoc with --pdf-engine=xelatex.

Попытка 2

Следуя этому предложению, я использую эту команду:

pandoc --pdf-engine=xelatex transcription.docx  -s -o transcript.pdf

Пандо c затем выдает сообщение об ошибке для каждого кхмерского символа в тексте:

[WARNING] Missing character: There is no អ in font [lmroman10-bold]:mapping=tex-text;!
[WARNING] Missing character: There is no ្ in font [lmroman10-bold]:mapping=tex-text;!
[WARNING] Missing character: There is no ន in font [lmroman10-bold]:mapping=tex-text;!
...

С помощью этого процесса создается PDF (см. https://briancroxall.net/pandoc/transcript.pdf), но он в основном пустой.

Выпуск

Лучше, чем Я могу сказать, что это говорит о том, что кхмерские символы недоступны в движке LaTeX, который я пытаюсь использовать для преобразования. Так ли это, как я могу успешно управлять этим преобразованием файлов?

1 Ответ

0 голосов
/ 14 марта 2020
Комментарий

mb21 помог мне понять это. Поскольку в моей системе установлено несколько кхмерских шрифтов, я должен был установить mainfont для использования одного из них.

$ pandoc --pdf-engine=xelatex transcription.docx \ -V 'mainfont:Khmer MN' -s -o transcription.pdf

При этом создается PDF-файл с кхмерскими символами и без сообщений об ошибках. ,

PDF действительно , похоже, имеет некоторые проблемы в том, что некоторые фразы на кхмерском языке выходят за рамки страницы. Я думаю, что это связано с проблемами сегментации, которые Word имеет для решения, но которые путаются при преобразовании в PDF.

...