Формат представления таксономической иерархии - PullRequest
4 голосов
/ 15 августа 2011

Мы планируем интегрировать иерархическую таксономию в наше программное решение. (На основе Java)

Существует ли стандартизированный (и простой в использовании) формат для представления иерархических таксономий? Формат, который будет общим форматом обмена, используемым различными редакторами таксономии?

Я смотрел на OWL (RDF), PMML ... но они либо достаточно сложны, либо, кажется, на самом деле не подходят для этой цели.

Чтобы привести простой пример. Мы хотели бы представить дерево концепций. К каждому понятию добавляется какой-то объект данных (в скобках)

Vehicles (category := 'V')
 |-> Car (code := 1)
 |    |-> Petrol (code := 2 && car_code := 'petrol')
 |    |-> Electical (code := 2 && car_code := 'electrical')
 |-> Plane (code := 1)

Мы могли бы разработать наш собственный формат XML с использованием библиотеки сериализации, такой как Xstream. Но если есть хороший стандарт, который хорошо поддерживается Java, я бы предпочел его использовать.

Ответы [ 3 ]

3 голосов
/ 15 августа 2011

Вы ищете SKOS - Пространство документов Простая организация документов Документ

SKOS - это онтология, представляющая таксономии, иерархии и тезаурус. Он основан на концепции более широких и узких свойств для установления отношений между терминами. Например:

ex:animals rdf:type skos:Concept;
  skos:prefLabel "animals"@en;
  skos:narrower ex:mammals.
ex:mammals rdf:type skos:Concept;
  skos:prefLabel "mammals"@en;
  skos:broader ex:animals.

Вы можете представлять свою таксономию с помощью SKOS, сериализовать в RDF и утверждать в базе данных RDF. Чтобы запросить его и получить деревья иерархии, используйте язык SPARQL.

1 голос
/ 15 августа 2011

[Извините за использование ответа за то, что должно быть комментарием к вопросу .это просто, что формат комментария не подходит для такого вида «перенаправления вопроса»] *

Хотя вопрос, как представляется, касается формата, представляющего таксономия иерархии, ссылки на OWL, RDF и PMML указывают на онтологию решения.Кроме того, воспринимаемая сложность этих форматов онтологий, возможно, говорит о том, что более простой подход оправдан.

В двух словах, вы должны утверждать, что вам действительно нужна структура онтологии, а не таксономияфреймворк.Легко спутать эти две взаимосвязанные концепции, но кажется, что во многих случаях требуется более гибкая СУБД или даже простой дескриптор схемы на основе XML.

Например, для выполнения управляемого поиска в каталогахразнородных элементов серверная часть базы данных EAV с относительно простой моделью иерархической схемы может «соответствовать требованиям».
Или, для поддержки / проверки логики извлечения некоторых сущностей, простая таксономия, где конечные узлы содержат принятые тексты

С другой стороны, если требуются какие-то рассуждения на основе схемы или, скажем, для причудливых усилий по извлечению данных, когда онтология управляет сборщиками данных, то вы можете эффективно говорить о семантической сети./ приложение онтологии.

0 голосов
/ 16 августа 2011

Биоинформатики используют формат файла OBO (http://www.geneontology.org/GO.format.obo-1_2.shtml) для хранения некоторых известных онтологий, таких как GeneOntology (онтология ориентированного графа).Поставляется с парсером Java: http://www.geneontology.org/GO.java.obo.parser.shtml

...