Мне нужно извлечь тип шрифта каждого слова. Я пытался извлечь содержимое PDF и классифицировать их, используя тип шрифта, используемого на них. Может кто-нибудь, пожалуйста, помогите мне с этим. Заранее спасибо
Я пытался использовать pdftool, но функция pdf_font выдает только типы шрифтов. Но я хочу, чтобы это сопоставлялось со словом.
pdf_fonts("D:\\12342903.pdf")
>>name type embedded file
<chr> <chr> <lgl> <chr>
1 ABCDEE+Cambria truetype TRUE ""
2 ABCDEE+Calibri cid_truetype TRUE ""
3 ABCDEE+Calibri truetype TRUE ""
4 ABCDEE+Cambria cid_truetype TRUE ""
5 SymbolMT cid_truetype TRUE ""
6 ArialMT truetype FALSE "C:\\WINDOWS\\Fonts\\arial.ttf"
7 ABCDEE+CourierNewPSMT truetype TRUE ""
8 ABCDEE+Calibri-Bold cid_truetype TRUE ""
9 ABCDEE+Calibri-Bold truetype TRUE ""
я бы хотел увидеть
word Font
The ABCDEE+Cambria
ground ABCDEE+Cambria
is ABCDEE+Cambria
shaking ABCDEE+Calibri-Bold