Какой парсер rdfa для java поддерживает текущие атрибуты rdfa - PullRequest
3 голосов
/ 02 мая 2010

Я создаю приложение на Java, используя Jena для очистки семантической информации. Я ищу парсер RDFa, который позволил бы мне правильно извлечь все операторы RDFa. В частности, тот, который извлекает информацию об используемых пространствах имен и предполагает, что теги RDFa являются правильными на странице, создает правильные тройки, которые различают свойства объекта и данных.

Я просмотрел все парсеры RDFa с сайта http://rdfa.info/wiki/Consume для Java. Все они изо всех сил пытаются извлечь какие-либо операторы RDFa, и если они не сбоят, анализатор Jena RDFa показывает множество ошибок, а затем умирает ужасной смертью, данные бесполезны, поскольку они неправильно обрабатываются и, как правило, смешиваются. Я новичок в этой области, поэтому, пожалуйста, будьте нежны :)

Я также думал об использовании библиотеки, написанной на другом языке, но опять же я не знаю, как подключить ее к коду Java. Есть предложения?

Ответы [ 2 ]

3 голосов
/ 05 июля 2010

Используйте java-rdfa . Он поддерживает jena и использует синтаксический анализатор validator.nu html 5 , который обрабатывает html, как это делает браузер (т. Е. Восстанавливает сломанную разметку).

3 голосов
/ 05 июня 2010

Большинство парсеров RDFa борются с неверным HTML. Библиотека any23 включает в себя синтаксический анализатор RDFa, который может работать с недопустимым HTML. Он анализирует любой RDFa в полный RDF, включая сопоставления пространства имен и т. Д., И находится в стадии активной разработки.

...