Мы используем apache версию tika 1.24 для обнаружения и извлечения данных из различных файлов, этот код работает для файлов меньшего размера, но не удается извлечь данные для файлов размером 2-3 МБ. Кто-нибудь сталкивался с этой проблемой с этой библиотекой для файлов большего размера?
private void validate(stream: TikaInputStream) {
val parser = new AutoDetectParser();
val handler = new BodyContentHandler(-1);
val metaData = new Metadata();
val context = new ParseContext();
val pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);
pdfConfig.setExtractUniqueInlineImagesOnly(true);
context.set(classOf[PDFParserConfig], pdfConfig);
context.set(classOf[EmbeddedDocumentExtractor], new EmbeddedImageFinder(t));
parser.parse(stream, handler, metaData, context);
val content = handler.toString();
}