Не могу прочитать арабский файл PDF с пользовательским шрифтом - PullRequest
0 голосов
/ 20 января 2019

У меня есть файл PDF на арабском языке, который содержит собственный шрифт, поэтому при попытке прочитать файл я столкнулся с нечитаемыми словами и символами, замененными другим символом или символом.

Вот ссылка на файл PDF, над которым я работаю .

public class TikaAnalysis {
    public static String extractContentUsingFacade(InputStream stream) throws IOException, TikaException {
        Tika tika = new Tika();
        String content = tika.parseToString(stream);
        try {
            WriteOnWordDoc(str);
        } catch (Exception e) {
            e.printStackTrace();
        }

        return content;
    }

    public static void WriteOnWordDoc(String fileContent) throws Exception {
        XWPFDocument document = new XWPFDocument();
        XWPFParagraph tmpParagraph = document.createParagraph();
        XWPFRun tmpRun = tmpParagraph.createRun();
        tmpRun.setText(fileContent);
        tmpRun.setFontSize(10);
        FileOutputStream fos = new FileOutputStream(new File("extractedContent.docx"));
        document.write(fos);
        fos.close();
    }

    public static void main(String[] args) {

        FileInputStream  inputStream = null;
        String path ="File.pdf";
        try {
            File file=new File(path);
            inputStream = new FileInputStream(file);
            InputStream input = new BufferedInputStream(inputStream);
            TikaAnalysis.extractContentUsingFacade(inputStream);
            inputStream.close();    
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (inputStream != null) {
                try {
                    System.out.println("close the file  ");
                    inputStream.close();
                } catch (Exception e) {
                    e.printStackTrace();
                }
            }
        }
    }
}
...