Apache Tika и ограничение количества символов при разборе документов - PullRequest
14 голосов
/ 27 мая 2011

Может кто-нибудь помочь мне разобраться?

Это можно сделать так

   Tika tika = new Tika();
   tika.setMaxStringLength(10*1024*1024);

Но если вы не используете Tika напрямую, вот так:

ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();

ParseContext ps = new ParseContext();
for (InputStream is : getInputStreams()) {
    parser.parse(is, textHandler, metadata, ps);
    is.close();
    System.out.println("Title: " + metadata.get("title"));
    System.out.println("Author: " + metadata.get("Author"));
}

Нет способа установитьвверх, потому что вы не взаимодействуете с WriteOutContentHandler.Кстати, по умолчанию оно установлено на -1, что означает отсутствие ограничений.Но результирующее ограничение составляет 100000 символов.

/**
 * The maximum number of characters to write to the character stream.
 * Set to -1 for no limit.
 */
private final int writeLimit;

/**
 * Number of characters written so far.
 */
private int writeCount = 0;

private WriteOutContentHandler(Writer writer, int writeLimit) {
    this.writer = writer;
    this.writeLimit = writeLimit;
}

/**
 * Creates a content handler that writes character events to
 * the given writer.
 *
 * @param writer writer
 */
public WriteOutContentHandler(Writer writer) {
    this(writer, -1);
}

1 Ответ

33 голосов
/ 27 мая 2011

Вы, должно быть, упустили из виду, что в обработчике контента есть конструктор с writelimit.

ContentHandler textHandler = new BodyContentHandler(int writeLimit);
...