Я использую библиотеку pdf.js
в NodeJS для синтаксического анализа текста из файлов .pdf.
Но когда текст кириллический, c, и данные ToUnicode
в любой из шрифтов в этом файле PDF, затем текст, распознаваемый как Engli sh, это означает, что кириллы c буква П
распознается как engli sh n
, и текст становится нечитаемым.
Любые предложения для реализации шрифтов в PDF для правильного разбора?