Apache анализ tika очень медленный при размере файла больше 2-3МБ - PullRequest
0 голосов
/ 04 мая 2020

Мы используем apache версию tika 1.24 для обнаружения и извлечения данных из различных файлов, этот код работает для файлов меньшего размера, но не удается извлечь данные для файлов размером 2-3 МБ. Кто-нибудь сталкивался с этой проблемой с этой библиотекой для файлов большего размера?

private void validate(stream: TikaInputStream) {

            val parser   = new AutoDetectParser();
            val handler  = new BodyContentHandler(-1);
            val metaData = new Metadata();
            val context = new ParseContext();
            val pdfConfig = new PDFParserConfig();
            pdfConfig.setExtractInlineImages(true);
            pdfConfig.setExtractUniqueInlineImagesOnly(true);
            context.set(classOf[PDFParserConfig], pdfConfig);
            context.set(classOf[EmbeddedDocumentExtractor], new EmbeddedImageFinder(t));
            parser.parse(stream, handler, metaData, context);
              val content       = handler.toString();

  }
...