Если вы хотите попробовать придерживаться Stanford Tokenizer / Parser, посмотрите страницу документации для токенизатора .
Если вы просто хотите разделить предложения, вам не нужно вызывать синтаксический анализатор должным образом, и поэтому вы должны иметь возможность использовать небольшой объем памяти - один или два мегабайта - напрямую используя DocumentPreprocessor.
Хотя настройка токенизатора доступна только в ограниченном количестве, вы можете изменить обработку кавычек.Возможно, вы захотите попробовать одно из:
unicodeQuotes=false,latexQuotes=false,asciiQuotes=false
unicodeQuotes=true
Первое будет означать отсутствие отображения котировок любого рода, второе будет заменять одинарные или двойные ascii-кавычки (если таковые имеются) на левые и правые кавычки согласно лучшимсвоей способности.
И хотя токенизатор разделяет слова различными способами в соответствии с соглашениями Penn Treebank, вы должны иметь возможность точно составить исходный текст из возвращенных токенов (см. различные другие поля в CoreLabel).В противном случае это ошибка.