Ошибки чтения / разбора RDF - PullRequest
3 голосов
/ 14 ноября 2011

У меня есть несколько RDF-файлов, которые я хочу импортировать в tripplestore (AllegroGraph), но в первом файле я получаю ошибку синтаксического анализатора SAX, заявляющую, что существует нераспознанный символ.После удаления рассматриваемой строки все отлично.Затем я попытался использовать валидатор W3C RDF и Jena на RDF со строкой ошибок, но все, что я получил, это некоторые предупреждения относительно неопределенных языков (абсолютно ничего о строке ошибок).Не могли бы вы предложить метод (если это возможно, Java) для поиска ошибок в файлах RDF?

Редактировать: Обсуждаемая строка:

<gn:alternateName xml:lang="got">&#66352;&#66374;&#66354;&#66352;&#66365;&#66361;&#66371;&#66372;&#66352;&#66365;</gn:alternateName>

1 Ответ

1 голос
/ 16 ноября 2011

Вы можете использовать Sesame's Rio parser для проверки. В этом посте есть инструкции о том, как работать с Rio в целом. Специально для проверки правильности нужно создать и прикрепить ParseErrorListener , который получает подробные предупреждения и ошибки от анализатора.

Однако, поскольку вы упоминаете, что проблема, с которой вы сталкиваетесь, находятся на уровне SAX / XML, вы также можете просто использовать универсальный валидатор XML, чтобы увидеть, что не так. Наиболее вероятная причина (но трудно сказать без подробностей) заключается в том, что у вас где-то есть неправильно закодированный символ.

...