Передача данных частями в Apache Tika для анализа - PullRequest
0 голосов
/ 10 января 2019

Есть ли способ настроить Apache Tika для разбора данных на куски? Допустим, данные разделены на 10 частей. Может ли он анализировать каждый блок по мере его получения? Или он может анализировать только тогда, когда он получает все 10 кусков?

public OutputStream parse(InputStream instream) {
        OutputStream outstream = new ByteArrayOutputStream();
        ToXMLContentHandler h = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        ParseContext context = new ParseContext();
        Metadata metadata = new Metadata();
        XHTMLContentHandler h1 = new XHTMLContentHandler(h, metadata);
        try {
            parser.parse(instream, h1, metadata, context);
            outstream.write(h1.toString().getBytes(Charset.forName("UTF-8")));
        } catch (TikaException e) {
            e.printStackTrace();
        } catch (SAXException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return outstream;
    }

Есть идеи по этому поводу?

...