Как я могу извлечь RDFa из HTML, используя PHP или Java? - PullRequest
3 голосов
/ 12 марта 2012

Я новичок, пытаюсь узнать о RDF, RDFa и материалах, связанных с ним, с нескольких дней ..

У меня такой вопрос: подумайте о следующем коде HTML + RDFa .. можно ли отдельно извлечь часть RDF? если это так, не могли бы вы продемонстрировать простой фрагмент кода (PHP или Java) ..

Я слышал, что Джену можно использовать, но не смог найти учебник, который объясняет это. Так что, если это возможно с Дженой, может кто-нибудь выложить фрагмент кода, пожалуйста ..

<html xmlns="http://www.w3.org/1999/xhtml"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
version="XHTML+RDFa 1.0" xml:lang="en">
  <head>
    <title>John's Home Page</title>
    <base href="http://example.org/john-d/" />
    <meta property="dc:creator" content="Jonathan Doe" />
    <link rel="foaf:primaryTopic" href="http://example.org/john-d/#me" />
  </head>
  <body about="http://example.org/john-d/#me">
    <h1>John's Home Page</h1>
    <p>My name is <span property="foaf:nick">John D</span> and I like
      <a href="http://www.neubauten.org/" rel="foaf:interest"
        xml:lang="de">Einstürzende Neubauten</a>.
    </p>
    <p>
      My <span rel="foaf:interest" resource="urn:ISBN:0752820907">favorite
      book is the inspiring <span about="urn:ISBN:0752820907"><cite
      property="dc:title">Weaving the Web</cite> by
      <span property="dc:creator">Tim Berners-Lee</span></span>
     </span>
    </p>
  </body>
</html>

Ответы [ 4 ]

3 голосов
/ 12 марта 2012

Да, вы можете извлечь RDF из страниц, содержащих разметку RDFa, и после извлечения вы можете поместить его в локальное хранилище тройных файлов RDF, если вы хотите сделать что-то одно с этими данными, или вы можете вставить его в глобальное триплетное хранилище и возможность запрашивать его вместе с существующими данными RDF.

Здесь - соответствующее обсуждение синтаксических анализаторов Java RDFa.

2 голосов
/ 12 марта 2012

Посмотрите на Дамиана java-rdfa .Вы можете использовать его с Apache Jena , вот фрагмент кода:

Class.forName("net.rootdev.javardfa.RDFaReader");
Model model = ...
model.read(url, "XHTML"); // xml parsing
model.read(other, "HTML"); // html parsing

Другой вариант в Java - Apache Any23 .

0 голосов
/ 06 ноября 2013

Парсинг RDFa в PHP: https://github.com/njh/easyrdf/ (используйте 0.8 / master ветку, чтобы иметь анализатор RDFa)

Разбор RDFa в Java: http://semarglproject.org/

0 голосов
/ 12 марта 2012

Вы не можете отделить RDF от HTML, поскольку RDF предоставляет дополнительную информацию о вещах в HTML.

Это все равно, что вынимать сноски и библиографию из книги и выбрасывать книгу: в основном бессмысленно.

...