Парсинг RTF в Tika дает только символы новой строки - PullRequest
0 голосов
/ 19 сентября 2018

У меня есть метод scala ниже, предназначенный для извлечения содержимого строки RTF:

def richToPlain(note: String): String = {
    val metaData = new Metadata()
    val handler = new BodyContentHandler()
    val parser = new RTFParser()
    val bytes = new ByteArrayInputStream(note.getBytes)
    parser.parse(bytes, handler, metaData, new ParseContext())
    handler.toString
  }

При передаче различных строк RTF, таких как "{\\rtf1\\ansi\\deff0 {\\fonttbl {\\f0 Times New Roman;}}\n\\f0\\fs60 Hello, World!\n}", я не могу извлечь правильное содержимое,Вместо этого синтаксический анализатор, похоже, возвращает только серию символов новой строки (результатом для указанного выше ввода будет один символ новой строки).Я пытался заставить charaset быть UTF-8, но это привело к тем же результатам.

1 Ответ

0 голосов
/ 20 сентября 2018

Если вы можете поделиться файлом с нами на нашем Jira 1 , мы можем посмотреть.Это звучит как ошибка.

...