Как извлечь тип шрифта каждого слова в PDF, используя R - PullRequest
2 голосов
/ 07 июня 2019

Мне нужно извлечь тип шрифта каждого слова. Я пытался извлечь содержимое PDF и классифицировать их, используя тип шрифта, используемого на них. Может кто-нибудь, пожалуйста, помогите мне с этим. Заранее спасибо

Я пытался использовать pdftool, но функция pdf_font выдает только типы шрифтов. Но я хочу, чтобы это сопоставлялось со словом.

  pdf_fonts("D:\\12342903.pdf")
  >>name                  type         embedded file                           
    <chr>                 <chr>        <lgl>    <chr>                          
  1 ABCDEE+Cambria        truetype     TRUE     ""                             
  2 ABCDEE+Calibri        cid_truetype TRUE     ""                             
  3 ABCDEE+Calibri        truetype     TRUE     ""                             
  4 ABCDEE+Cambria        cid_truetype TRUE     ""                             
  5 SymbolMT              cid_truetype TRUE     ""                             
  6 ArialMT               truetype     FALSE    "C:\\WINDOWS\\Fonts\\arial.ttf"
  7 ABCDEE+CourierNewPSMT truetype     TRUE     ""                             
  8 ABCDEE+Calibri-Bold   cid_truetype TRUE     ""                             
  9 ABCDEE+Calibri-Bold   truetype     TRUE     ""                     

я бы хотел увидеть

   word           Font
   The            ABCDEE+Cambria
   ground         ABCDEE+Cambria
   is             ABCDEE+Cambria
   shaking        ABCDEE+Calibri-Bold

1 Ответ

0 голосов
/ 07 июня 2019

В целом это невозможно: слово в файле PDF может содержать несколько типов шрифтов. Однако один из подходов к этому может состоять в том, чтобы преобразовать PDF-файл в более простой формат, такой как HTML, и затем проанализировать его с некоторым правилом обработки изменений шрифта в середине слова.

Я не знаю ни одной легко доступной бесплатной утилиты, которая могла бы сделать преобразование. Я считаю, что профессиональная версия Adobe Acrobat может сделать это (но у меня нет копии). Онлайн веб-сайт https://www.zamzar.com/ может выполнять преобразования и успешно преобразовал крошечный пример PDF в HTML для меня.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...