Кто-нибудь знаком с форматом документа RTF и анализом с использованием любых библиотек Java. Стандартный способ сделать это - использовать RTFEditorKit в JDK Swing API:
Swing RTFEditorKit API
но это не так точно, когда дело доходит до разбора документов RTF. На самом деле в API есть комментарий:
Поддержка RTF не была написана
Качели команды. В будущем мы надеемся
улучшить предоставляемую поддержку.
Не думаю, что буду ждать, пока это произойдет :)
Другой подход заключается в определении грамматики с использованием JavaCC и генерации синтаксического анализатора. Это работает лучше, но у меня проблемы с поиском полной грамматики. Я пробовал:
Прикладная грамматика JavaCC для PMCC
что в порядке и следующее (пока лучшее).
Кодеры RTFParserDelegate и ET Translate Grammar
Существуют различные реализации грамматики ETranslate (я знаю, что API Nutch может использовать это). Кто-нибудь знает, какая грамматика является наиболее точной или есть лучший подход к этому?
Я мог бы начать просматривать документы JavaCC, чтобы понять файлы .jj и проверить их на наличие файлов RTF ... это мой текущий подход, но он требует времени ... любая помощь будет принята